home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 5 Edit / 05-Edit.zip / dehtml11.zip / DEHTML.MAN < prev    next >
Text File  |  1997-06-08  |  5KB  |  123 lines

  1. ===============================================================================
  2.                                   DeHTML
  3.                             for OS/2 ver.1.10
  4.              Let's convert HTML documents into nornal documents!
  5. ===============================================================================
  6.                           by HAMAGUCHI, Takashi
  7.                                  (c) 1997
  8.                     EMAIL: htakashi@mse.biglobe.ne.jp
  9.                            NBC03301@niftyserve.or.jp
  10.            Home Page: http://www2d.meshnet.or.jp/~htakashi/index.html
  11. ===============================================================================
  12.  
  13. [* Preface *]
  14.      I got some transcriptions of "Larry King Live" on CNN Home Page via PC-VAN
  15. WWW Direct Gateway Service with World Talk ver.1.4. HTML documents are cached 
  16. to HDD. We can use these HTML documents but there are some problems:
  17.   (1) Too long logical lines! Some GREP utilities will be hung up!!
  18.   (2) Existence of <BR> tags in the body of text.
  19.  
  20.      Though I got a free software to delete HTML tags from FINET(NIFTY-Serve),
  21. many of HTML documents could not be read by the software because files were too
  22. long. This experience forced me to make a tool to delete HTML tags.
  23.  
  24. [* How to process *]
  25.     * Delete CR/LF because it is meaningless in HTML documents.(^_^)
  26.     * Replace <BR> with CR/LF. (^_^)
  27.     * Delete frequently used tags.
  28.     * Convert some escape sequences:
  29.         <   ==>  <
  30.         >   ==>  >
  31.         &  ==>  &
  32.         " ==>  "
  33.         ®  ==>  (R)
  34.         © ==>  (C)
  35.     * Output to files. Files are opened by DeHTML automatically.
  36.  
  37. [* Limitation *]
  38.      I have only a few HTML documents. I can't be sure this program is perfect.
  39.  
  40. [* About Character Code Conversion *]
  41.      Character Code Conversion is not supported. I'm planning to .....
  42.  
  43. [* Type of Software *]
  44.      * Please share expenses to buy reference books on HTML and compilers.
  45.        This is not a SHAREWARE but your financial assistance enables me to 
  46.        develop more convienient versions(maybe...).
  47.        
  48.        NIFTYSERVE SW Number 2632 (300 [Japanese yen] + TAX)
  49.                or
  50.        Postal Giro (Post Office of Japan)
  51.                01130-5-34430  HAMAGUCHI, Takashi
  52.  
  53. [* Command line Options *]
  54.    -e<NUM> : Format the output text with <NUM> chars (default 70) per line.
  55.    -o : Overwrite former outputfiles.
  56.    -c<NUM> : Character code conversion
  57.       +1 : JIS->SHIFT-JIS
  58.       +2 : EUC(Japanese)->SHIFT-JIS
  59.       e.g. dehtml -c3 *.htm  (JIS/EUC->SHIFT-JIS)
  60.  
  61. [* USAGE *]
  62. Prompt>dehtml html_files
  63.  
  64. For example,
  65. C:\>dehtml *.HTM[Enter]
  66. [D000001.HTM]===>>[D:\WTALK\DATA\SV00002\D000001.000] .....done.
  67. [D000002.HTM]===>>[D:\WTALK\DATA\SV00002\D000002.000] .....done.
  68. [D000003.HTM]===>>[D:\WTALK\DATA\SV00002\D000003.000] .....done.
  69. [D000004.HTM]===>>[D:\WTALK\DATA\SV00002\D000004.000] .....done.
  70. [D000005.HTM]===>>[D:\WTALK\DATA\SV00002\D000005.000] .....done.
  71. [D000006.HTM]===>>[D:\WTALK\DATA\SV00002\D000006.000] .....done.
  72. [D000007.HTM]===>>[D:\WTALK\DATA\SV00002\D000007.000] .....done.
  73. [D000008.HTM]===>>[D:\WTALK\DATA\SV00002\D000008.000] .....done.
  74. [D000009.HTM]===>>[D:\WTALK\DATA\SV00002\D000009.000] processing
  75.  
  76. [* Future Schedule *]
  77.   * More tags will be able to be deleted....
  78.  
  79. [* History of Updates *]
  80. ver.0.00  1996-01-20  Prototype version 
  81.     Posted to NIFTY-Serve FENG LIB 4
  82.     This version delete CR/LF, replace <BR> with CR/LF, delete frequently 
  83.     used tags in "Larry King Live."
  84. ver.0.01  1996-01-28
  85.     The size of read buffer increased to 5120 bytes.
  86.     The numbers of tags to be deleted is increased.
  87.     Bug fix.
  88. ver.0.02  1996-01-30 Test version
  89.     Posted to NIFTY-Serve FENG LIB 4 and FINET LIB 3
  90.     This version outputs precessed data to files.
  91.     The numbers of tags to be deleted is increased.
  92. ver.1.00  1996-01-30  Donationware
  93.     Posted to NIFTY-Serve FENG LIB 4
  94.     Poor text format function available.
  95. ver.1.01  1996-02-04  Donationware
  96.     Posted to NIFTY-Serve FENG LIB 4
  97.     Bug fixing + alpha
  98. ver.1.02  1996-02-16  Donationware
  99.     Posted to NIFTY-Serve FENG LIB 4
  100.     Bug fixing + alpha
  101. ver.1.03  1996-03-15
  102.     <pre></pre> supported.
  103. ..........
  104. ver.1.06  1996-04-21
  105.     <FONT> supported.
  106.     <UL> tag -->CR/LF
  107.     <A HREF = ...> supported.
  108.     JIS->Shift-JIS character code conversion supported.
  109.     Bug Fix.
  110. ver.1.08  1996-08-01
  111.     <DT><DL><TT><EM> tags are supported.
  112.     EUC->Shift-JIS character code conversion supported.
  113. ver.1.08a 1997-01-05
  114.     <SMALL><BLINK><HR ...><TH><FRAMESET><FRAME><NOFRAMES><LINK><BASE>
  115.     <TEXTAREA> Supported
  116. ver.1.08d 1997-02-01
  117.     <STRONG> supported.
  118. ver.1.08d 1997-02-16 OS/2 Version
  119. ver.1.09 1997-04-20
  120.     Bug Fix
  121. ver.1.10 1997-06-08
  122.     Enhanced tag remove function.
  123.