home *** CD-ROM | disk | FTP | other *** search
/ Chip 2007 November / CPNL0711.ISO / beeld / teken / scribus-1.3.3.9-win32-install.exe / libs / tools / antiword / Docs / FAQ < prev    next >
Text File  |  2005-02-08  |  5KB  |  114 lines

  1. Frequently Asked Questions
  2. ==========================
  3.  
  4. These questions and answers are mainly Linux/Unix oriented. For other
  5. Operating Systems you may want to read the documentation provided by the
  6. people who ported Antiword.
  7.  
  8. Q1: How do I install Antiword?
  9. A1: (a) Make a suitable directory such as '$HOME/src/antiword' and copy the
  10.         'antiword.tar.gz' file to this directory.
  11.     (b) decompress: 'gunzip antiword.tar.gz'
  12.     (c) unpack: 'tar xvf antiword.tar'
  13.     (d) compile: 'make all'
  14.     (e) install: 'make install'. This will install Antiword in the $HOME/bin
  15.         directory.
  16.     (f) copy the file 'fontnames' and one or more mapping files from the
  17.         Resources directory to the $HOME/.antiword directory (note the dot
  18.         before antiword!).
  19.     NOTE: you can skip point (f) if your system administrator already copied
  20.           these files to /usr/share/antiword.
  21.  
  22. Q2: I get the message "I can't open your mapping file (xxxx-x.txt)"
  23. A2: This means that the mapping file has not been installed. The installation
  24.     may have to be done manually. See above answer A1, point (f).
  25.     NOTE: Antiword assumes that a file that can't be opened for reading is a
  26.           file that doesn't exist.
  27.  
  28. Q3: How do I use Antiword?
  29. A3: Type antiword -h and see.
  30.  
  31. Q4: I tried "antiword -m /some/directory/8859-1.txt word.doc", but this
  32.     doesn't work.
  33. A4: The -m option is followed by the name of a mapping file, a full pathname
  34.     won't work.
  35.  
  36. Q5: How does Antiword deal with Word macro viruses?
  37. A5: Antiword does not run any Word macros because it can't do so.
  38.     Therefore such a virus will not harm your computer system.
  39.  
  40. Q6: What is the purpose of the file 'fontnames' in the '/usr/share/antiword/'
  41.     or '$HOME/.antiword' directory?
  42. A6: This file provides a translation table from the font names used in a Word
  43.     document to the font names used by a PostScript printer.
  44.     The file 'fontnames' can be edited to match the font collection used by
  45.     your PostScript printer.
  46.  
  47. Q7: What is 'Hidden Text'?
  48. A7: Hidden Text is Microsoft speak for text that may or may not be shown
  49.     on the screen, subject to the user's preferences, but such text is never
  50.     printed.
  51.  
  52. Q8: Antiword claims to support all ISO-8859 character sets, but I can't see
  53.     any of this.
  54. A8: There is support for all ISO-8859 character sets, but only in the text
  55.     output, not in the PostScript output.
  56.     The result can only be seen if your xterm, vtterm, kvt or similar
  57.     terminal emulation program uses a font compatible with that ISO-8859
  58.     character set.
  59.  
  60. Q9: Which mapping file (-m option) is correct in my situation?
  61. A9: The correct mapping file depends on the character set you need for output
  62.     in a specific language.
  63.     For Western European languages (like English, French, German) this is
  64.     8859-1.txt. (OS/2: cp1252.txt) (DOS: cp850.txt)
  65.     For Eastern European languages (like Polish, Czech, Slovak, Croatian) this
  66.     is 8859-2.txt. (OS/2: cp1250.txt) (DOS: cp852.txt)
  67.     For Esperanto use 8859-3.txt.
  68.     For Russian use 8859-5.txt or koi8-r.txt. (OS/2: cp1251.txt)
  69.      (DOS: cp866.txt)
  70.     For Ukrainian use koi8-u.txt.
  71.     For Arabic use 8859-6.txt. (DOS: cp864.txt)
  72.     For Hebrew use 8859-8.txt. (DOS: cp862.txt)
  73.     For Thai use 8859-11.txt.
  74.     If your system supports it, you might also try UTF-8.txt.
  75.  
  76.     NOTE: UTF-8 also enables Antiword to show text in languages like Chinese,
  77.           Japanese and Korean.
  78.  
  79. Q10: I tried UTF-8, but some documents show more garbage than text. Why?
  80. A10: UTF-8 will only work if the document was saved by a Unicode enabled
  81.     version of Word (or if Word used ISO-8859-1 as its internal encoding).
  82.     The following versions of Word are known to be Unicode enabled:
  83.     Word 6 and Word 7 for Asian languages, all versions of Word 97,
  84.     Word 98 (Mac), Word 2000, Word 2001 (Mac) and Word 2002 (aka Word XP).
  85.  
  86. Q11: Why can't Antiword read from stdin directly? Why use a temporary file?
  87. A11: The information in a Word document is not stored sequentially. Therefore
  88.     the use of the "fseek" function can't be avoided. So Antiword must copy
  89.     stdin to a temporary file first and then process that file.
  90.  
  91. Q12: Why does the XML output of Antiword sometimes contain such a strange
  92.      structure or practically no structure at all?
  93. A12: Remember that Word is basically 'text plus appearance' and XML is
  94.      basically 'text plus structure'. If a Word document is written by a
  95.      competent person there will be a balance between appearance and structure,
  96.      but if a Word document is written by an inexperienced or incompetent
  97.      person the Word document can end up without a structure, or worse, with a
  98.      terrible structure.
  99.      Antiword can't create a structure when there is none.
  100.  
  101. Q13: Why is the Postscript output in Cyrillic in ISO-8869-5? Nobody uses that
  102.      character set.
  103. A13: For Cyrillic you a have:
  104.      (a) koi8 does not cover all languages that use Cyrillic,
  105.      (b) cp866, cp1251 and Mac-Cyrillic are proprietary,
  106.      (c) Unicode and UTF-8 are not supported by PostScript yet and
  107.      (d) ISO-8859-5, the character set that nobody uses.
  108.  
  109. Q14: I have used "antiword -p a4 -m 8869-5.txt file.doc > file.ps", but I get
  110.      no Cyrillic characters.
  111. A14: Programs like Ghostscript and Ghostview need Cyrillic enabled fonts in
  112.      order to show Cyrillic characters. A PostScript printer needs to be
  113.      Cyrillic enabled in order to show Cyrillic characters.
  114.