home *** CD-ROM | disk | FTP | other *** search
/ ProfitPress Mega CDROM2 …eeware (MSDOS)(1992)(Eng) / ProfitPress-MegaCDROM2.B6I / TEXT / UTILITY / MTRAN12.ZIP / DEMO.ZIP / READ.ME2 < prev    next >
Encoding:
Text File  |  1991-08-29  |  7.6 KB  |  141 lines

  1. 08/29/91
  2.  
  3. Dear Fellow Icon enthusiasts,
  4.  
  5.      Here's a letter answering some questions that were asked 
  6. about the TRAN1 machine translation program.  Perhaps some of the 
  7. information here is of general interest.
  8.  
  9.      First of all, a fundamental principle underlying the design 
  10. of this machine translation program is the idea that it is 
  11. reasonable to put a good deal of manual analysis into a text that 
  12. will be translated into a multitude of target languages.  An 
  13. example of such a text is the Bible which still has not been 
  14. translated into some 3500 minority languages.  Other suitable 
  15. candidates for this type of treatment are owners manuals for 
  16. various products and the legislation of the European Community.  A 
  17. corollary to this first principle is the notion that any machine 
  18. translation program will be more successful if the grammar of the 
  19. source text is as limited as possible.  In keeping with this 
  20. corollary the syntax of the program's input text has been greatly 
  21. simplified. 
  22.  
  23.      A second fundamental principle is that the program attempts 
  24. to translate meaning rather than just words.  To that end the 
  25. analysis of the source text is based on the theory expounded in 
  26. _The Semantic Structure of Written Communication_ (Beekman, 
  27. Callow, & Kopesec 1981).  According to the SSWC concepts/meanings 
  28. come in four classes: Things, Events, Attributes, and Relations 
  29. (1981:49).  In their simplest forms things are represented by 
  30. nouns, events by verbs, attributes by adjectives and adverbs, and 
  31. relations by function words like conjunctions, sentence adverbs, 
  32. and prepositions.  A formidable problem for the translator 
  33. presents itself when concepts are not represented in their 
  34. simplest forms; this is called lexical skewing.  For instance, in 
  35. the sentence, "John gave Mary some help" the word "help" is really 
  36. an event.  A simpler/unskewed way to express the same meaning 
  37. would be, "John helped Mary." 
  38.  
  39.      In the analysis of the source text included with the program 
  40. an attempt was made to eliminate lexical skewing to the fullest 
  41. extent possible.  It should be noted that this is not entirely 
  42. necessary when translating between closely related languages, but 
  43. it becomes critical when translating into minority languages which 
  44. may lack abstract nouns for events like "love" or "forgiveness". 
  45.  
  46.      As noted above, an attempt was also made to utilize a very 
  47. limited syntax in the analysis of the source text.  Ideally a 
  48. sentence should consist of a subject, verb, objects, and 
  49. possibly a relative clause.  Passive voice is not permitted 
  50. because it does not exist in all languages.  Conjunctions and 
  51. sentence adverbs are used in a stylized manner (ie. they always 
  52. mean the same thing). 
  53.  
  54.      To facilitate translation of meanings rather than words, a 
  55. system utilizing connecting underscores and subscripting digits 
  56. was employed.  For instance, "chief_priests1" is treated as a 
  57. single concept, and thus contains a connecting underscore.  It is 
  58. also followed by the subscripting digit "1" to distinguish this 
  59. concept from any others which might possibly be renderable by the 
  60. same English words.  The subscripting digits used are somewhat 
  61. arbitrary, but in the case of verbs the digits 1 through 3 were 
  62. used for first, second, and third person singular verbs, and the 
  63. digits 2 through 6 were used for the plural forms.  Thus "know6" 
  64. would mean "they know".
  65.  
  66.      Forms such as "chief_priests1" and "know6" are considered to 
  67. be arbitrary symbols for units of meaning.  They could just as 
  68. easily have been rendered as "abc1" and "xyx6", but this would 
  69. have resulted in an input text that was unreadable.  Nevertheless, 
  70. the idea that these symbols are arbitrary is important.  For 
  71. example, "chief_priests1" may be rendered fairly literally in one 
  72. language (ie. 'sacerdotes principales' in Spanish), but in another 
  73. language the translation may sound more like 'honored old men of 
  74. ceremonial rites'.  The arbitrary forms used to represent meanings 
  75. are called semantic tags in the program. 
  76.  
  77.      Since the program is attempting to translate meanings rather 
  78. than words, it uses an invention called a semanticon rather than a 
  79. lexicon.  Each semanticon entry begins with a semantic tag as 
  80. described above.  The next field in each entry is a morpological 
  81. tag.  A morphological tag is basically a part of speech, but it 
  82. can contain additional information such as person, number, gender, 
  83. tense, and so on.  The morphological tag refers to the target 
  84. language rendering of the concept represented by the semantic tag.  
  85. This target language rendering may not strictly match the semantic 
  86. tag in the traditional sense.  For instance, "sacerdotes 
  87. principales" 'priests high' is not a noun in the traditional 
  88. sense, but a combination of a noun plus an adjective.  However, it 
  89. functions as a single unit, and for this reason the conglomerate 
  90. is treated as a noun in the semanticon.  The next field in the 
  91. semanticon entry is the target language rendering of the concept 
  92. represented by the semantic tag.  It generally contains a single 
  93. target language word, but it may contain multiple words.  If the 
  94. morphological tag is "n" for noun, the entry consists of an 
  95. article followed by one or more words connected by underscores 
  96. which loosely represent a noun.  If the morphological tag is one 
  97. of those for adjectives, the entry consists of four words: a 
  98. masculine and a feminine singular adjective and a masculine and a 
  99. feminine plural adjective. 
  100.  
  101.      The source language text to be translated contains braces.  
  102. These braces are used to delimit portions of the text which should 
  103. be translated as a unit.  For instance, noun phrases and 
  104. prepositional phrases should be surrounded by braces, and it's a 
  105. good idea to surround the main clause by braces.  The program 
  106. translates text in braces as units so if a noun phrase is 
  107. surrounded by braces the program will never make the article of 
  108. that noun phrase agree with a noun which is outside that noun 
  109. phrase. 
  110.  
  111.      To make the program translate into some other language such 
  112. as French, it is first necessary to change the semanticon to 
  113. contain French renderings for the semantic tags.  (The semanticon 
  114. can be changed with a text editor.)  Note that French requires 
  115. explicit subject pronouns so the entry for "know6" would contain 
  116. two words meaning 'they know' rather than the single Spanish word 
  117. 'saben'.  After this is done, it will still be necessary to make 
  118. some program modifications, but they should not be too formidable 
  119. for French.  First of all, the program has some global variables 
  120. containing Spanish articles.  These need to be changed to their 
  121. French counterparts, but it probably won't be necessary to change 
  122. the identifier names.  Second, it will be necessary to modify the 
  123. procedure contract().  The rules for contraction will be different 
  124. in French.  Likewise, the procedure phono_adj() which makes 
  125. phonological adjustments (like "a house" but "an hour") will have 
  126. to be modified to follow French rules.  The procedure which moves 
  127. object pronouns in front of verbs may or may not need to be 
  128. modified.  (I don't know what the rules are for French.)  None of 
  129. the required modifications should be too time consuming since the 
  130. entire program was written in just fifteen days. 
  131.  
  132.      Translations into Portuguese, Italian, and possibly French, 
  133. as well as a Papua New Guinea language called Tigak are planned 
  134. for later this year.
  135.  
  136. Doug Witmer
  137. Internet: b912dieg@utarlg.uta.edu
  138. Bitnet:   b912dieg@utarlg
  139. smail:    1102 Enterprise Drive #149, Grand Prairie, Texas  75051
  140.  
  141.