home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / sci / crypt / 7057 < prev    next >
Encoding:
Text File  |  1993-01-21  |  1.3 KB  |  35 lines

  1. Newsgroups: sci.crypt
  2. Path: sparky!uunet!pipex!warwick!pavo.csi.cam.ac.uk!rja14
  3. From: rja14@cl.cam.ac.uk (Ross Anderson)
  4. Subject: Re: Automatic lang. determination of titles/subj. lines?
  5. Message-ID: <1993Jan21.113751.17113@infodev.cam.ac.uk>
  6. Sender: news@infodev.cam.ac.uk (USENET news)
  7. Nntp-Posting-Host: ely.cl.cam.ac.uk
  8. Organization: U of Cambridge Computer Lab, UK
  9. References: <1993Jan20.163448.17017@daimi.aau.dk>
  10. Date: Thu, 21 Jan 1993 11:37:51 GMT
  11. Lines: 22
  12.  
  13. In article <1993Jan20.163448.17017@daimi.aau.dk>, lhp@daimi.aau.dk (
  14. Lasse Hiller|e Petersen) writes:
  15.  
  16. > Rather than reinventing the wheel, I'd like to know whether someone knows
  17. > of a program for the automatic determination of the language of short
  18. > sentences, titles or subject lines.
  19.  
  20. An effective solution to this problem was found by a chap called Trevor Coates
  21. who ran a translation agency in London in about 1980. The trick is to look at 
  22. the short words (up to three letters). Each language has a unique set of these
  23. and the decision process is extremely fast - three or four words are enough to
  24. specify the language uniquely.
  25.  
  26. Trevor's system was not even implemented on a computer, but on a single sheet 
  27. of paper. That's how fast and simple it is.
  28.  
  29. I don't have a copy of the sheet of paper but I expect you could reinvent it
  30. without too much trouble.
  31.  
  32. Hope this helps
  33.  
  34. Ross
  35.