home *** CD-ROM | disk | FTP | other *** search
/ RISC DISC 2 / RISC_DISC_2.iso / the_web / documents / spec / html_spec / doc-charset_ < prev    next >
Encoding:
Text File  |  1995-06-15  |  2.3 KB  |  50 lines

  1. <!-- $Id: doc-charset.sgm,v 1.10 1995/06/15 20:16:40 connolly Exp $ -->
  2. <h1 id=datachrs>Characters, Words, and Paragraphs
  3.  
  4. An HTML user agent should present the body of an HTML document as a
  5. collection of typeset paragraphs and preformatted text. Except for
  6. preformatted elements (<tag/PRE/, <tag/XMP/, <tag/LISTING/,
  7. <tag/TEXTAREA/), each block structuring element is regarded as a
  8. paragraph by taking the data characters in its content and the content
  9. of its descendant elements, concatenating them, and splitting the
  10. result into words, separated by space, tab, or record end characters
  11. (and perhaps hyphen characters). The sequence of words is typeset as a
  12. paragraph by breaking it into lines.
  13.  
  14. <h2 id=charlist>The HTML Document Character Set
  15.  
  16. The document character set specified in <hdref refid=decl> must be
  17. supported by HTML user agents. It includes the graphic characters of
  18. Latin Alphabet No. 1, or simply Latin-1.  Latin-1 comprises 191
  19. graphic characters, including the alphabets of most Western European
  20. languages.
  21. <note>Use the non-breaking space and soft hyphen indicator characters is 
  22. discouraged because support for them is not widely deployed.
  23. </note>
  24. <note>
  25. To support non-western writing systems, a larger character repertoire
  26. will be specified in a future version of HTML. The document character
  27. set will be [ISO-10646], or some subset that agrees with [ISO-10646];
  28. in particular, all numeric character references must use code
  29. positions assigned by [ISO-10646].
  30. </note>
  31.  
  32. In SGML applications, the use of control characters is limited in
  33. order to maximize the chance of successful interchange over
  34. heterogeneous networks and operating systems. In the HTML document
  35. character set only three control characters are allowed: Horizontal
  36. Tab, Carriage Return, and Line Feed (code positions 9, 13, and 10).
  37.  
  38. The HTML DTD references the Added Latin 1 entity set, to allow
  39. mnemonic representation of selected Latin 1 characters using only the
  40. widely supported ASCII character repertoire. For example:
  41.  
  42. <listing><![CDATA[
  43. Kurt Gödel was a famous logician and mathematician.
  44. ]]></listing>
  45.  
  46. See <hdref refid="lat1ent"> for a table of the "Added Latin 1"
  47. entities, and <hdref refid="iso-latin-1"> for a table of the code
  48. positions of [ISO 8859-1] and the control characters in the HTML
  49. document character set.
  50.