home *** CD-ROM | disk | FTP | other *** search
/ PC Online 1999 November / PCONLINE_11_99.ISO / filesbbs / OS2 / APCHSSL2.ZIP / OS2HTTPD / public / htdocs / xml / test20.xml < prev    next >
Encoding:
Extensible Markup Language  |  1999-05-15  |  56.6 KB  |  995 lines

  1. <?xml version="1.0"?> 
  2. <?xml-stylesheet href="http://202.120.182.10/xml/test20.xsl" type="text/xsl"?>
  3. <!-- DOCTYPE tei.2 SYSTEM "xteilite.dtd" [
  4. <!ENTITY nil ''>
  5. <!ENTITY null ''>
  6. <!ENTITY perc "%">
  7. ] -->
  8. <!-- XML Compatible Version                                  -->
  9. <!-- 1997-11-27 : PB : first XML release                     -->
  10. <tei.2 TEIform="tei.2">
  11. <teiHeader type="text" status="new" TEIform="teiHeader">
  12.     <fileDesc TEIform="fileDesc">
  13. <titleStmt TEIform="titleStmt"><title TEIform="title">Text Encoding for Information Interchange: An
  14. Introduction to the Text Encoding Initiative.</title>
  15. </titleStmt>
  16. <publicationStmt TEIform="publicationStmt"><p TEIform="p">For presentation at the LEC, London, Nov 1995.</p>
  17. </publicationStmt>
  18. <sourceDesc default="NO" TEIform="sourceDesc"><p TEIform="p">Revised and expanded version of article published as
  19. <title TEIform="title">The Wider Relevance of the Text Encoding Initiative  </title> in
  20. OII Spectrum, Nov 1994.
  21. </p>
  22. </sourceDesc></fileDesc>
  23. </teiHeader>
  24. <text TEIform="text">
  25. <front TEIform="front">
  26. <titlePage TEIform="titlePage">
  27. <docTitle TEIform="docTitle">
  28. <titlePart type="main" TEIform="titlePart">Text Encoding for Information Interchange : An Introduction
  29. to the Text Encoding Initiative
  30. </titlePart></docTitle>
  31. <docAuthor TEIform="docAuthor">Lou Burnard</docAuthor>
  32. <!-- DOCIMPRINT>Document No:  TEI ED 99</DOCIMPRINT -->
  33. <docDate TEIform="docDate">July 1995</docDate>
  34. </titlePage>
  35. <!-- divgen type='toc' -->
  36. <!-- ==================================cut to save space===========
  37. <DIV type="abstract">
  38. <HEAD>Abstract</HEAD>
  39. <P>The Text Encoding Initiative (TEI) is an international cooperative
  40. research effort, the goal of which is to define a set of generic
  41. Guidelines for the representation of textual materials in electronic
  42. form, in such a way as to enable researchers in any discipline to
  43. interchange and re-use resources, independently of software, hardware,
  44. and application area. The first full version of the TEI Guidelines was
  45. published in May 1994, after six years of development in Europe and the
  46. US, with  major funding from the American National Endowment for the
  47. Humanities and from the EU.  
  48. </P>
  49. <P>This publication takes the form of a substantial reference manual,
  50. documenting a modular and extensible SGML document type definition
  51. (DTD), capable of describing all kinds of texts, of all times and in all
  52. languages.  Modern computer-aided research crosses many political,
  53. linguistic, temporal, and disciplinary boundaries;  the TEI scheme
  54. reflects this fact. As far as possible, the Guidelines eschew
  55. controversy; where consensus has not been established, only very general
  56. recommendations are made.  The object is to help the researcher make his
  57. or her position explicit, not to dictate what that position should be.
  58. </P>
  59. <P>Consequently, the TEI <q>standard</q> offers neither a single
  60. all-embracing encoding scheme, nor an unstructured collection of tag
  61. sets.  Rather it offers an extensible framework containing a common core
  62. of features, a choice of frameworks, and a wide variety of optional
  63. additions for specific application areas.  
  64. </P>
  65. <P>The value of this approach has been demonstrated by the diversity of
  66. fields in which the Guidelines have been applied, ranging from
  67. traditional humanities disciplines such as textual editing and critical
  68. editions, to linguistic engineering applications such as  spoken and
  69. written language corpora. The Guidelines include detailed provision for
  70. the encoding of meta-textual cataloguing information; they also include
  71. an extensive set of recommendations for the representation of arbitrary
  72. interpretive structures and for the encoding of complex hypertextual
  73. links and alignments, such as those needed for multilingual corpora, and
  74. multimedia applications.
  75. </P></DIV>
  76.  ==================================end of cut to save space===========  -->
  77. </front> 
  78. <body TEIform="body">
  79. <div1 type="foo" org="uniform" sample="complete" part="N" TEIform="div1"><head n="1" TEIform="head">Standardization and the TEI
  80. </head> 
  81. <p TEIform="p">Standards come into being for a variety of reasons, and in a variety
  82. of ways, not always entirely explicable. They may be entirely
  83. market-defined; for example by manufacturers' attempts singly or as a
  84. group to control market share, or by consumers' desires to simplify
  85. purchase decisions. Standards also  result from pressure applied by
  86. well-intentioned groups of experts, or as a consequence of legislation
  87. in the public interest. And finally, standards come about as the
  88. expression of some emergent consensus within some large community. This
  89. last method is the most likely to last, but the most difficult to
  90. achieve. 
  91. </p>
  92. <p TEIform="p">In creating such a consensus, there is an inevitable tension between
  93. the need to transform what is simply tried and tested into something
  94. normative and binding on the one hand, and the reluctance to
  95. straitjacket or constrain unanticipated development on the other. This
  96. is particularly true of the research and development arena, which
  97. depends for its survival on innovation, and thus the ability to provide
  98. answers to as yet unformulated questions, while at the same time being
  99. as concerned as any other community to codify existing practice. The
  100. research community is populated by experts, who need maximal flexibility
  101. and who distrust constraint, but also by novices, who need access to
  102. that accumulated expertise in a consistent and codified form, if only in
  103. order to rebel against it and thus become experts in their turn. 
  104. </p>
  105. <p TEIform="p">Standardization of the way in which information is stored and
  106. represented (rather than processed) is the key to a number of closely
  107. related problems, all of central concern to users
  108. of modern Information Technology, be they academic or commercial. 
  109. For creators of language resources in
  110. particular, it addresses the difficulty of ensuring that information is
  111. <emph TEIform="emph">reusable</emph>; the difficulty of ensuring that information
  112. represented in different ways can be seamlessly
  113. <emph TEIform="emph">integrated;</emph> and the difficulty of facilitating loss-free
  114. information <emph TEIform="emph">interchange</emph> between the widest choice of
  115. different platforms, different application systems and different
  116. languages.  
  117. </p>
  118. <p TEIform="p">By standardizing at the level of text representation, we can
  119. hope to retain the flexibility needed to develop new applications, while
  120. ensuring that old ones continue to function. By attempting a
  121. theory-neutral standardization, at the level where consensus exists, we
  122. avoid the need to reinvent the wheel, without requiring that everyone
  123. drive a particular brand of bicycle. 
  124. </p>
  125. <p TEIform="p">In this spirit, the TEI <title TEIform="title">Guidelines</title> which form the
  126. topic of this paper, aim to provide not a set of normative rules for
  127. particular applications, but rather a modular and extensible framework,
  128. within which particular application-specific norms can be defined. The
  129. development of such TEI-aware norms is already underway in a number of
  130. contexts, most significantly for the present audience, within EAGLES and
  131. related EU projects such as Multext, but also in a wide variety of
  132. corpus building, scholarly editing and digital library projects. Such
  133. projects have in common the need to customize and make less generic the
  134. framework defined by the TEI, retaining as they do so the capacity for
  135. interchange for which it was developed. The general principles, and
  136. many of the specific mechanisms, underlying this approach are of clear
  137. relevance to all large scale users of information technology.
  138. </p>
  139. <p TEIform="p">This paper
  140. <note place="unspecified" anchored="yes" TEIform="note">An earlier version of which was published as
  141. <title TEIform="title">The Wider Relevance of the Text Encoding Initiative</title> in
  142. OII <title TEIform="title">Spectrum</title>, Nov 1994.</note> describes the origins and organization of
  143. the TEI scheme, including some technical details of how it may be customized for
  144. multiple application areas, and an overview of its coverage. 
  145. </p></div1>
  146. <div1 org="uniform" sample="complete" part="N" TEIform="div1"><head n="2" TEIform="head">What is the TEI?</head> 
  147. <p TEIform="p">The Text Encoding Initiative (TEI) is an international cooperative
  148. research effort, the goal of which is to define a set of generic
  149. Guidelines for the representation of textual materials in electronic
  150. form. The project was sponsored and organized by three leading
  151. professional associations in the field: the Association for
  152. Computational Linguistics (ACL), the Association for Literary and
  153. Linguistic Computing (ALLC) and the Association for Computing and the
  154. Humanities (ACH). It has been funded throughout its five years of
  155. activities on both sides of the Atlantic: primarily by the US National
  156. Endowment for the Humanities and by the European Union 3rd framework
  157. Programme for Linguistic Research and Engineering, but also with grants
  158. from the Mellon Foundation and from the Canadian Social Sciences and
  159. Humanities Research Council. Of equal significance has been the donation
  160. of time and expertise by the many members of the wider research
  161. community who have served on the TEI's Working Committees and Working
  162. Groups. 
  163. </p>
  164. <p TEIform="p">As its title suggests, the TEI is strongly interested in text. But
  165. this interest is by no means confined to the use of electronic text as a
  166. stage in the production of paper documents, and the word
  167. <mentioned TEIform="mentioned">text</mentioned> should not be read too literally.  The TEI
  168. is equally concerned with both textual and non-textual resources in
  169. electronic form, whether as constituents of a research database or
  170. components of non-paper publications.  
  171. </p>
  172. <p TEIform="p">Like the publishing industry, the research community has long
  173. realized that its stock in hand is not words on the page, but
  174. information, independent of any particular physical realization. As
  175. technology emerges which is genuinely adequate to the task of
  176. integrating text, graphics and audio into a seamless information-bearing
  177. vehicle, so the importance of that integrated vision becomes more
  178. apparent. By providing a description of information which is independent
  179. of realization or media, the TEI scheme, like other SGML-based
  180. approaches, enormously facilitates the construction and exploitation of
  181. multimedia technology. 
  182. </p>
  183. <p TEIform="p">In the same way, the texts with which language researchers are
  184. concerned are likely to be very heterogenous. In the construction of
  185. language corpora such as the British National Corpus <note place="unspecified" anchored="yes" TEIform="note">See
  186. <code>http://info.ox.ac.uk/bnc</code> for details of this 100 million
  187. word TEI-conformant corpus of modern British English.</note>, material
  188. as divers as newspapers, books, office memoranda, playscripts, publicity
  189. brochures, letters and diaries, transcribed lectures and interviews, TV
  190. and radio broadcasts, and unscripted conversations are  integrated into
  191. a single body of material. Research needs impose that this integration
  192. be carried out with minimal loss of information, and at the same time
  193. with minimal complexity: in any case, the resulting 
  194. <soCalled TEIform="soCalled">text</soCalled> is far removed from the conventional notion of a printed
  195. work.  
  196. </p>
  197. <p TEIform="p">Electronic texts are most obviously different from printed ones in
  198. that the former contain <term TEIform="term">markup</term> or encoding, which makes
  199. explicit various features of the text, so that they can be  efficiently
  200. processed. Printed texts adopt a variety of similarly-motivated
  201. conventions (use of typeface, organization of the carrier medium etc),
  202. but these are not so readily processable as the tags of a formal markup
  203. scheme.  
  204. </p>
  205. <p TEIform="p">The goals of the TEI project initially had a dual focus: being concerned with both
  206. <emph TEIform="emph">what</emph> textual features should be encoded (i.e. made
  207. explicit) in an electronic text, and <emph TEIform="emph">how</emph> that encoding
  208. should be represented for loss-free, platform-independent, interchange. 
  209. <!-- The approach taken was a two stage one: 
  210. <list type="gloss">
  211. <label>firstly</label>
  212. <item> the identification of those distinctions concerning which there
  213. is common agreement; </item>
  214. <label>secondly</label>
  215. <item> the creation of a uniform encoding system within which those
  216. distinctions can be expressed for interchange.</item> </list> 
  217. -->
  218. </p>
  219. <p TEIform="p">Early on in the project, the Standard Generalized Markup Language
  220. (SGML; ISO 8879) was chosen as the most appropriate vehicle for the
  221. Guidelines, initially on the purely pragmatic grounds that to create a
  222. comparably expressive and versatile formal language would be a major
  223. research project in itself. In the event, despite some frequently
  224. rehearsed inelegancies, SGML has proved entirely adequate to the needs
  225. of researchers, and after five years, is still increasing its domination
  226. of the software industry, with new product announcements coming every
  227. year. The TEI was thus able to focus its efforts on the expression,
  228. using SGML, of the set of textual features indicated as its first
  229. goal above. 
  230. </p>
  231. <p TEIform="p">The prime deliverable of the TEI project is a very large number
  232. (over 400) of textual feature definitions, expressed as 
  233. SGML elements and attributes, with associated documentation and examples. 
  234. These elements are grouped into <term TEIform="term">tag
  235. sets</term> of various kinds, as further discussed below, and together
  236. constitute a modular scheme which can be configured to provide
  237. hardware-, software-, and application- independent support for the
  238. encoding of all kinds of text in all languages and of all times.   
  239. </p>
  240. <p TEIform="p">The TEI tag sets are necessarily based on, but not limited by,
  241. existing encoding practices; they are designed to be both comprehensive
  242. and extensible. They are collectively documented in a substantial
  243. reference manual, the <title TEIform="title">Guidelines for Text Encoding for
  244. Interchange</title>, which appeared in May 1994 after five years of
  245. extensive development work. 
  246. <!-- A first draft of this publication appeared in
  247. November 1990. Between 1992 and 1994, chapters of a revised draft were
  248. circulated electronically. A fully revised and completed version, known
  249. internally as P3, was first published in May 1994. 
  250. A revised and corrected edition is tentatively planned  for first
  251. quarter 1996. -->
  252. This 1400 page manual is published both in paper and
  253. electronic hypertext form and is also available over the Internet, in a
  254. variety of formats. <note place="unspecified" anchored="yes" TEIform="note"><title TEIform="title">Guidelines for the encoding and
  255. interchange of machine-readable texts</title> edited by
  256. C.M.Sperberg-McQueen and Lou Burnard (Chicago and Oxford, ALLC-ACH-ACL
  257. Text Encoding Initiative, 1994).  For details of current availability
  258. and locations, see the official TEI Web page at 
  259. <code>http://www-tei.uic.edu/orgs/tei</code>.</note> 
  260. </p></div1>
  261. <div1 org="uniform" sample="complete" part="N" TEIform="div1"><head n="3" TEIform="head">Organization of the TEI scheme </head> 
  262. <p TEIform="p">As an SGML application, the TEI scheme necessarily requires the
  263. existence of some kind of <term TEIform="term">document type definition</term> (DTD). 
  264. Current approaches to dtd design may be caricatured as falling into one
  265. of three camps, depending on their answer to the question <q direct="unspecified" TEIform="q">How many
  266. DTDs does the world need?</q>.   
  267. </p>
  268. <p TEIform="p">For many of the first users of SGML, the appropriate answer was
  269. <q direct="unspecified" TEIform="q">One</q>: the whole purpose of the exercise being to define a
  270. template against which all texts could be checked rigorously and
  271. consistently. This approach, which might be characterized by the phrase
  272. <q direct="unspecified" TEIform="q">we know what's best for you</q>, has an obvious place in
  273. applications such as technical documentation, but is equally obviously
  274. inappropriate where the object of the exercise is to describe texts
  275. produced before the blessings of structured document design were
  276. revealed to the world. 
  277. </p>
  278. <p TEIform="p">At the opposite extreme are those whose answer would be
  279. <q direct="unspecified" TEIform="q">none</q>, for whom no DTD can ever be adequate to the full
  280. complexity of the texts to be described: this attitude might be
  281. caricatured as <q direct="unspecified" TEIform="q">No-one will ever understand my problem</q>. Again, it
  282. is not impossible to imagine applications for which a DTD consisting
  283. only of elements with the content model ANY would be entirely
  284. appropriate (the first electronic edition of the <title TEIform="title">Oxford English
  285. Dictionary</title> provides one obvious example), although its
  286. usefulness in the general case is less clear. 
  287. </p>
  288. <p TEIform="p">Perhaps most numerous are those who shrug their shoulders and say
  289. <q direct="unspecified" TEIform="q">as many as it takes</q>: the world will always need new DTDs, in the
  290. boundary case, one per document. In the name of pragmatism, this
  291. attitude risks crowding the fledgeling possibility of information
  292. interchange out of the nest entirely; nevertheless, its popularity
  293. reminds us that sometimes the document must drive
  294. the DTD, rather than the reverse. 
  295. </p>
  296. <p TEIform="p">The approach taken by the TEI attempts to combine virtues of all
  297. three of these approaches. It defines not one, but many possible DTDs,
  298. which may be tailored to the needs of a particular application in a way
  299. difficult or impossible with most other general purpose DTDs so far
  300. developed. The user of the TEI scheme is offered the opportunity of
  301. building a DTD which matches his or her requirements, but constrained to
  302. do so in a way that facilitates interchange. 
  303. </p>
  304. <p TEIform="p">We refer to this somewhat jocularly as the Chicago Pizza model. All
  305. pizzas have some ingredients in common (cheese and tomato sauce); in
  306. Chicago, at least, they may have entirely different forms of pastry
  307. base, with which (universally) the consumer is expected to make his or
  308. her own selection of toppings. Using SGML syntax this might be
  309. summarized as follows:
  310. <eg TEIform="eg"><![CDATA[<!ENTITY % base    "(deepDish | thinCrust | stuffed)" >
  311. <!ENTITY % topping "(sausage | mushroom | pepper | anchovy ...)"> 
  312. <!ELEMENT pizza - - (%base, cheese & tomato, (%topping;)* )>
  313. ]]></eg>  In the same way, the user of the TEI scheme constructs a view
  314. of the TEI DTD by combining the core tag sets (which are always
  315. present), exactly one <soCalled TEIform="soCalled">base</soCalled> tag set and his or her
  316. own selection of <soCalled TEIform="soCalled">additional</soCalled> tag sets or toppings. 
  317. </p>
  318. <p TEIform="p">We use the term <term TEIform="term">tag set</term> to denote simply a collection
  319. of definitions for SGML elements and their attributes. These tag sets
  320. are the basic organizing principles of the TEI scheme, and are divided
  321. into four groups:
  322. <list type="gloss" TEIform="list">
  323. <label TEIform="label">core </label><item TEIform="item">tag sets defining elements likely to be needed by all
  324. documents, and therefore available by default in all cases.
  325. </item>
  326. <label TEIform="label">base </label><item TEIform="item">tag sets defining particular classes of document whose
  327. gross structure may vary; in general, only one base tag set is
  328. appropriate for a given document.
  329. </item>
  330. <label TEIform="label">additional </label><item TEIform="item">tag sets defining sets of elements which may be
  331. found in any class of document but which are typically associated with
  332. some specialized application or detailed subject area.
  333. </item>
  334. <label TEIform="label">auxiliary </label><item TEIform="item">tag sets comprising elements with highly
  335. specialized roles, typically for description of some part of the encoding
  336. scheme, and which make up a DTD independent of the main one.
  337. </item>
  338. </list>In general, elements appear in only one tag set, though the
  339. current model allows for the redefinition of elements within different
  340. base tag sets. Elements may not be defined in more than one additional
  341. tag set. 
  342. </p>
  343. <p TEIform="p">This modularization is achieved by the use of parameter entities in
  344. the TEI DTD, which is further discussed below. To illustrate the basic
  345. mechanism we present here the start of a minimal TEI-conformant document
  346. in which the base tag set for prose has been selected together with the
  347. additional tag set for linking: 
  348. <eg TEIform="eg"><![CDATA[<!DOCTYPE tei.2 [
  349. <!ENTITY % TEI.prose "INCLUDE">
  350. <!ENTITY % TEI.linking "INCLUDE">
  351. ]>
  352. <tei.2>
  353.  <!-- content of document here -->
  354. </tei.2>
  355. ]]></eg>  Because this selection of tag sets is effected explicitly by
  356. declarations within the DTD subset, as shown above, any recipient of the
  357. document can tell which TEI tag sets are required to process it. Any
  358. deviations or modifications of the TEI definitions (for example, the
  359. renaming of elements, or the addition of new ones) may be made in a
  360. similar declarative manner. Once a given view of the TEI dtd has been
  361. defined in this way, it can be fixed or <soCalled TEIform="soCalled">compiled</soCalled>
  362. to preclude further modification and also to remove the complexity
  363. necessarily introduced by the extensive use of indirection in the TEI
  364. dtd.  
  365. </p></div1>
  366. <div1 org="uniform" sample="complete" part="N" TEIform="div1"><head n="4" TEIform="head">The TEI core </head> 
  367. <p TEIform="p">Two core tag sets are available to all TEI documents without
  368. formality. The first defines a large number of elements which may appear
  369. in almost any kind of document, whatever kind of base tag set is in use.
  370. The second defines the <term TEIform="term">header</term>, providing something
  371. analogous to an electronic title page for the electronic text.
  372. </p>
  373. <div2 type="splot" org="uniform" sample="complete" part="N" TEIform="div2"><head n="5" TEIform="head">Elements available to all bases</head> 
  374. <p TEIform="p">The core tag set common to all TEI documents provides means of
  375. encoding with a reasonable degree of sophistication such textual
  376. features as typographically highlighted or quoted 
  377. phrases, (optionally distinguishing highlighting used 
  378. for emphasis, technical terms, foreign words, titles etc); 
  379. quoted phrases, (optionally distinguishing amongst direct speech,
  380. quotation, glosses, cited phrases etc.);
  381. <q direct="unspecified" TEIform="q">data-like</q> phrases such as
  382. names, numbers and measures, dates and times, etc.;
  383. lists of all kinds;
  384. basic editorial changes (e.g. correction of apparent errors;
  385. regularization and normalization; additions, deletions and omissions);
  386. simple links and cross references, providing basic hypertextual
  387. features; facilities for annotation, indexing, bibliographic citations
  388. and referencing systems.
  389. <!-- == deleted to save space ======================================
  390. the following
  391. textual features: 
  392. <list>
  393. <item>typographically highlighted phrases, (optionally distinguishing
  394. amongst highlighting for emphasis, technical terms, foreign words,
  395. titles etc.)
  396. </item>
  397. <item>quoted phrases, optionally distinguishing amongst direct speech,
  398. quotation, glosses, cited phrases etc.
  399. </item>
  400. <item>names, numbers and measures, dates and times, and similar
  401. <q>data-like</q> phrases.
  402. </item>
  403. <item>lists of all kinds
  404. </item>
  405. <item>basic editorial changes (e.g. correction of apparent errors;
  406. regularization and normalization; additions, deletions and omissions)
  407. </item>
  408. <item>simple links and cross references, providing basic hypertextual
  409. features.
  410. </item>
  411. <item>pre-existing or generated annotation and indexing
  412. </item>
  413. <item>bibliographic citations, adequate for most commonly used
  414. bibliographic packages, in either a free or a tightly structured format
  415. </item>
  416. <item>simple or complex referencing systems, not necessarily dependent
  417. on the existing SGML structure.
  418. </item> 
  419. </list>
  420. == end of deleted to save space ====================================== -->
  421. There are few documents which do not exhibit some of these
  422. features; and none of these features is particularly restricted to any
  423. one kind of document. In some cases, an additional tagset is also
  424. available, providing more specialized elements for those wishing to
  425. encode aspects of these features in greater detail (for example, for
  426. verse and drama, and for names), but the elements defined in this core
  427. are believed to be adequate for most applications most of the time.   
  428. </p></div2>
  429. <div2 id="hdr" org="uniform" sample="complete" part="N" TEIform="div2"><head n="6" TEIform="head">The header</head> 
  430. <p TEIform="p">The TEI scheme attaches particular importance to the provision of
  431. documentary or bibliographic information about electronic texts. Such
  432. information is essential for any satisfactory interchange of texts
  433. coming from multiple sources, or for which long term uses are envisaged.
  434. <!-- As with software, leaving the documentation of an electronic text to the
  435. last moment is a recipe for disaster all too commonly followed.  -->
  436. </p>
  437. <p TEIform="p">The TEI header is one of the few mandatory elements in a TEI
  438. document. It has four major divisions which together provide a detailed
  439. syntax for the documentation of:
  440. <list type="simple" TEIform="list">
  441. <item TEIform="item">the electronic document itself and  the sources from which it was
  442. derived;
  443. </item>
  444. <item TEIform="item">the encoding system which has been applied;
  445. </item>
  446. <item TEIform="item">descriptive information categorizing the document and its subject
  447. matter;
  448. </item>
  449. <item TEIform="item">its revision history.</item> 
  450. </list></p>
  451. <p TEIform="p">The first of these, the <term TEIform="term">file description</term>, contains
  452. traditional bibliographic material, detailing title, intellectual
  453. responsibility and publication or distribution information relating to
  454. an electronic text, which can readily be translated into a conventional
  455. catalogue record for use by the growing number of forward-thinking
  456. academic and public libraries now coming to terms with their new role as
  457. curators of non-print electronic materials. 
  458. </p>
  459. <p TEIform="p">Several commentators, noticing how the day to day information
  460. processing of all sectors of the economy now takes place in electronic
  461. form only, have expressed concern at the difficulties faced by
  462. librarians and archivists in handling these new forms of historical
  463. records. Others, trying to come to terms with the wealth of information
  464. in <q direct="unspecified" TEIform="q">cyberspace</q>, have lamented the absence of any effective
  465. cataloguing standards for networked resources and other forms of
  466. electronic publication. For creators of language corpora, the provision
  467. of such meta-descriptive information is essential, since without it
  468. analysis of the full complexity of language use is all but impossible.
  469. The TEI Header represents a major contribution to overcoming all these
  470. problems. 
  471. </p>
  472. <p TEIform="p">Many electronic texts are essentially derivative works, created
  473. either by keying or scanning previously existing print materials,
  474. combining or modifying previously existing electronic materials, or
  475. both.  The <term TEIform="term">source description</term> part of the TEI header
  476. allows an encoder to specify the source or sources from which a text has
  477. been derived, using traditional bibliographic concepts. The pedigree of
  478. a TEI-conformant text can thus be specified, in the same way as a
  479. conventional book will generally document its publishing history. A
  480. detailed formal description of changes made in producing a text can be
  481. recorded as a distinct <term TEIform="term">revision history</term>; this is
  482. particularly useful for highly dynamic texts. 
  483. </p>
  484. <p TEIform="p">As noted above, the TEI is not a fixed encoding scheme, but offers a
  485. variety of options appropriate to different situations. Consequently,
  486. the <term TEIform="term">encoding description</term> within a TEI Header is of
  487. particular importance to users of an electronic document. It provides,
  488. in structured or unstructured form, vital information about editorial
  489. conventions or policies, design decisions and even the selection of tags
  490. actually used within the document.   
  491. </p>
  492. <p TEIform="p">The <term TEIform="term">profile description</term> is used to group together a
  493. wide range of additional descriptive information ranging from
  494. specifications of the languages used within it, the situation or social
  495. context in which it was produced, its topics or classification, to
  496. demographic or social characteristics of its authors or participants.
  497. No-one is likely to need all of these categories of information, but 
  498. <!-- the working groups involved in defining the header agreed that -->
  499. all of them are likely to be essential to some users. 
  500. </p>
  501. <!--
  502. <P>At one extreme, an encoder may provide only a bibliographic
  503. identification of the text.  At the other, encoders wishing to ensure
  504. that their texts can be used for the widest range of applications, will
  505. want to provide a level of detailed documentation approximating to the
  506. kind most often supplied in the form of a manual. Most texts will lie
  507. somewhere between these extremes; textual corpora in particular will
  508. tend more to the latter extreme. 
  509. </P>
  510. -->
  511. <p TEIform="p">A collection of TEI headers can also be regarded as a distinct
  512. document, and an auxiliary DTD is provided to support interchange of
  513. headers alone, for example between libraries or archives. 
  514. </p></div2></div1>
  515. <div1 id="bas" type="frrpo" org="uniform" sample="complete" part="N" TEIform="div1"><head n="7" TEIform="head">The TEI base tag sets</head> 
  516. <p TEIform="p">To construct a view of the TEI DTD, the user must always choose one
  517. base tag sets. Six of these are currently defined,  for documents which
  518. are predominantly one of prose, verse, drama, transcribed speech, dictionaries, or terminological databases. Another two are
  519. provided for use with texts which combine these basic tag sets.
  520. <!-- <list>
  521. <item>prose
  522. </item>
  523. <item>verse
  524. </item>
  525. <item>drama
  526. </item>
  527. <item>transcribed speech
  528. </item>
  529. <item>letters and memoranda
  530. </item>
  531. <item>dictionary entries
  532. </item>
  533. <item>terminological entries
  534. </item> 
  535. </list>
  536. -->
  537. </p>
  538. <p TEIform="p">The choice of a base tag set determines the basic structure of all the
  539. documents with which it is to be used, reflecting the fact that 
  540. subelements likely to appear within a
  541. dictionary (for example) will be entirely different in kind from those
  542. likely to appear within a letter or a novel, and even
  543. more so from those likely to be found in a transcription of spoken
  544. language.  To cater for this variety, the constituents of all divisions
  545. of a TEI <gi TEI="yes" TEIform="gi">text</gi> element are not defined explicitly, but in terms
  546. of <term TEIform="term">parameter entities</term>. The mechanism used is to provide
  547. definitions like the following within the DTD, one of which the
  548. user must over-ride by supplying an appropriate declaration 
  549. in the DTD subset:
  550. <eg TEIform="eg"><![CDATA[
  551. <!ENTITY % TEI.prose "IGNORE">
  552. <!ENTITY % TEI.dictionary "IGNORE">
  553. ]]></eg>
  554. The body of the main dtd contains a series of alternative definitions,
  555. each enclosed within an SGML <term TEIform="term">marked section</term> named after the
  556. base which it defines, as in this simplified example:
  557. <eg TEIform="eg"><![CDATA[
  558. <![ %TEI.prose [
  559. <!-- This definition is in force when the prose base is selected -->
  560. <!-- Its effect is to define component as either paragraph or list -->
  561. <!ENTITY % component "p|list" >
  562. ]&null;]>
  563.  
  564. <![ %TEI.dictionary [
  565. <!--This definition is in force when the dictionary base is selected -->
  566. <!-- Its effect is to define component as entry alone -->
  567. <!ENTITY % component "entry" >
  568. ]&null;]>
  569.  
  570. <!-- This definition is always in force -->
  571. <!-- Its effect is to define component.seq as one or more of -->
  572. <!-- whatever definition of component is currently in force -->
  573. <!ENTITY % component.seq "(%component)+">
  574. ]]></eg>
  575. Within the body of the DTD, elements are defined using these
  576. parameter entities only, for example:
  577. <eg TEIform="eg"><![CDATA[
  578. <!ELEMENT div - - ((%component.seq)+)>
  579. ]]></eg>
  580.  
  581. To select a base tag set a declaration such as the following should
  582. be supplied within the DTD subset for the document:
  583.  
  584. <eg TEIform="eg"><![CDATA[
  585. <!ENTITY % TEI.prose "INCLUDE">
  586. ]]></eg>
  587. This will over-ride the declaration within the TEI DTD itself, because
  588. it is given first. If no base is declared, the DTD will not compile.
  589. </p>
  590.  
  591. <p TEIform="p">The value of the parameter entity called
  592. <ident>component.seq</ident> will thus  differ in different bases. In
  593. this way it is possible for the divisions of a text using the drama
  594. base (for example) to consist of speeches and stage directions, while
  595. those of a text using the dictionary base will consist of lexical
  596. entries.  </p>
  597.  
  598. <div2 org="uniform" sample="complete" part="N" TEIform="div2"><head n="8" TEIform="head">Textual Divisions</head> 
  599.  
  600. <p TEIform="p">Although the actual components may differ, groups of textual
  601. components are potentially grouped into higher level
  602. <soCalled TEIform="soCalled">division</soCalled>s in almost any kind of text. These
  603. higher level units may be called variously
  604. <soCalled TEIform="soCalled">chapters</soCalled>, <soCalled TEIform="soCalled">sections</soCalled>,
  605. <soCalled TEIform="soCalled">subdvisions</soCalled>, <soCalled TEIform="soCalled">acts</soCalled> or
  606. <soCalled TEIform="soCalled">parts</soCalled> but all seem to behave in more or less the
  607. same way: they are incomplete in themselves, and nested hierarchically. In
  608. the TEI scheme all such objects are therefore regarded as the same
  609. kind of element, called here a <term TEIform="term">division</term>. 
  610. <!--
  611. ; though a
  612. distinction is made between divisions whose hierarchic position is
  613. regarded as inseparable from their semantics (these are encoded as
  614. <gi>div1</gi>, <gi>div2</gi> etc. down to <gi>div7</gi> elements) and
  615. those for which their position in the document tree is regarded as of
  616. lesser importance (these are known as <SOCALLED>vanilla
  617. </SOCALLED>
  618. <gi>div</gi>s). Numbered and unnumbered division elements may not be
  619. mixed in the same <gi>front</gi>, <gi>body</gi>, or <gi>back</gi>
  620. element.-->
  621. </p>
  622.  
  623. <p TEIform="p">A <ident>type</ident> attribute may be used to distinguish amongst
  624. divisions in some respect other than their hierarchic position: the
  625. values for this attribute (as for several others in the TEI scheme) are
  626. not standardized, precisely because no consensus exists, or is likely to
  627. exist, as to a generic typology. A set of legal values should however be
  628. defined for a given application, either in the TEI Header or by a
  629. user-defined modification. 
  630. </p>
  631. <p TEIform="p">In the normal case, the components of all divisions in a particular
  632. base are homogeneous --- they all use the same value for
  633. <ident>component.seq</ident>. However, the scheme also allows for two
  634. kinds of heterogeneity.  If the <term TEIform="term">general</term> base is selected,
  635. together with two or more other bases, then different divisions of a
  636. text may have different constituents, though each division must itself
  637. be homogeneous. A <term TEIform="term">mixed</term> base is also defined, in which
  638. components from any selection of bases may be combined promiscuously
  639. across division boundaries.  
  640. </p>
  641. <p TEIform="p">This approach applies equally to the encoding of smaller units: 
  642. rather than attempt to enumerate all the different analytic units which
  643. particular disciplines might find necessary, the TEI proposes two
  644. generic segmentation elements: one (<gi TEI="yes" TEIform="gi">s</gi>) for simple end-to-end
  645. segmentation, such as that commonly used in language corpora, roughly
  646. corresponding to the notion of orthographic sentence; the other (<gi TEI="yes" TEIform="gi">seg</gi>)
  647. for segments which can potentially self-nest. In either case, a <ident>type</ident>
  648. attribute may be used to distinguish different kinds of segment.  
  649. </p></div2>
  650. <div2 org="uniform" sample="complete" part="N" TEIform="div2"><head n="9" TEIform="head">The TEI Class System and Modification Mechanisms</head> 
  651. <p TEIform="p">Textual features, and hence the elements which encode them,  may be 
  652. categorized or classified in a number of ways. The TEI scheme identifies
  653. two kinds of classification scheme: <term TEIform="term">attribute classes</term> and
  654. <term TEIform="term">model classes</term>; both are used for broadly similar purposes. 
  655. </p>
  656. <p TEIform="p">Members of an attribute class share the same set of attributes. For
  657. example, all elements which represent links or associations between one
  658. element and another do so using a common set of attributes, defined
  659. by the <ident>pointer</ident> attribute class.
  660. <!-- All elements are members of at least one
  661. attribute class, the class <q>global</q>, which is further discussed
  662. below (section <ptr TARGET="glob"/>).  -->
  663. </p>
  664. <p TEIform="p">Members of a model class share the same structural properties: that
  665. is, they may appear at the same position within the SGML document
  666. structure. For example, the 
  667. class <term TEIform="term">divtop</term> contains all elements (headings, epigraphs
  668. etc.)  which can appear at the start of a textual division; all elements used to mark editorial corrections or
  669. omissions are members of the class <term TEIform="term">edit</term>; elements marking
  670. bibliographic citations etc. are all members of the class
  671. <term TEIform="term">bibl</term> and so on. 
  672. </p>
  673. <p TEIform="p">Elements may of course be members of more than one class. Classes
  674. may have super- and sub-classes, and properties (notably associated
  675. attributes) may be inherited. Classes are defined in the TEI dtd
  676. by means of parameter entities, and used extensively for DTD maintenance,
  677. documentation, and extension.</p>
  678. <p TEIform="p">The TEI scheme supports three kinds of user modification: new elements may be added into
  679. existing classes, and existing elements renamed or undefined. These operations are carried out in a controlled manner, using the class
  680. system and without any need for extensive revision of the TEI DTD itself.</p>
  681. <p TEIform="p">The process of adding a new element to a class may be illustrated 
  682. as follows. Consider
  683. the model class <term TEIform="term">divTop</term> mentioned above. Simplifying somewhat, this element class is defined as follows:
  684. <eg TEIform="eg"><![CDATA[
  685. <!ENTITY % x.divtop "">
  686. <!ENTITY % m.divtop "%x.divtop head | byline | epigraph">
  687. ]]></eg> To add a new element (say, <gi TEI="yes" TEIform="gi">keywords</gi>) to this class,
  688. enabling it to appear anywhere in the content model that other members
  689. of the class do, all that is needed is to re-define the
  690. <soCalled TEIform="soCalled">x-entity</soCalled> within the document type subset:
  691.  
  692. <eg TEIform="eg"><![CDATA[
  693. <!ENTITY % x.divtop "keywords |">
  694. ]]></eg>
  695. Note the trailing vertical bar, which is required. As it happens, the
  696. element <gi TEI="yes" TEIform="gi">keywords</gi> is already defined in the TEI scheme (within the
  697. header); if it were not, an element declaration would also be
  698. necessary.</p>
  699.  
  700. <p TEIform="p">Parameter entities are also used to effect the two other kinds of 
  701. modification mentioned above:
  702. the ability to undefine elements, and the ability to rename them. 
  703. </p>
  704. <p TEIform="p">Within the main TEI dtd, each element definition and its associated
  705. attribute list specification is enclosed by a marked section with the same
  706. name as the element, the default value for which is "INCLUDE". Thus, to
  707. undefine the element <gi TEI="yes" TEIform="gi">mentioned</gi>, all that is needed is a declaration
  708. like the following in the DTD subset:
  709. <eg TEIform="eg"><![CDATA[
  710. <!ENTITY % mentioned "IGNORE">
  711. ]]></eg>
  712. </p>
  713. <p TEIform="p">A similar declaration may be used to rename any element; for example, to 
  714. rename <gi TEI="yes" TEIform="gi">p</gi> as <gi TEI="yes" TEIform="gi">para</gi>:
  715. <eg TEIform="eg"><![CDATA[
  716. <!ENTITY % n.p "para">
  717. ]]></eg>
  718. This works because all references to the <gi TEI="yes" TEIform="gi">p</gi> element throughout
  719. the TEI dtd are made indirectly, using the <ident>n.p</ident> entity. 
  720. Furthermore, the original name for an element is recoverable by an SGML 
  721. application, because it forms the value of a global attribute 
  722. <ident>teiform</ident> of declared type FIXED.
  723. </p>
  724. <p TEIform="p">All user-defined modifications of this kind are regarded as
  725. forming an additional tag set, which is embedded within the DTD in the
  726. same way as as any other tag set, i.e. by enabling the 
  727. <term TEIform="term">TEI.extensions</term>
  728. parameter entities. In this way a TEI document can make explicit the
  729. extent and nature of any modification required in the base TEI scheme
  730. for its processing. An auxiliary tag set is also provided for the
  731. documentation of additional SGML elements in a way compatible with that
  732. used for the rest of the scheme. 
  733. </p></div2>
  734. <div2 id="glob" org="uniform" sample="complete" part="N" TEIform="div2"><head n="10" TEIform="head">The global attributes</head> 
  735. <p TEIform="p">One particularly important class is the <term TEIform="term">global</term>
  736. attribute class. By default the following attributes are members of
  737. this class and may therefore be supplied for all elements in the 
  738. TEI scheme:
  739. <list type="gloss" TEIform="list">
  740. <label TEIform="label">id</label>
  741. <item TEIform="item">provides an SGML identifier for an element</item>
  742. <label TEIform="label">n</label>
  743. <item TEIform="item">provides a possibly non-unique  name or number for an element</item>
  744. <label TEIform="label">lang</label>
  745. <item TEIform="item">specifies the language and hence the writing system used for an
  746. element</item>
  747. <label TEIform="label">rend</label>
  748. <item TEIform="item">provides information about the rendering of an element where this
  749. is not otherwise specified</item>
  750. </list> 
  751. </p>
  752. <p TEIform="p">This list may be extended: for example,
  753. selecting the additional tag set for analysis will add analytic attributes to
  754. the above list. The <ident>id</ident> and <ident>n</ident> attributes allow for
  755. the identification of any element occurrence within a TEI-conformant
  756. text.  Elements carrying an <ident>id</ident> attribute value may be
  757. the object of a link or cross-reference, or any of the other
  758. re-structuring mechanisms proposed by the TEI for circumventing the
  759. rigidly hierarchic structure of a simple SGML DTD. The fact that the
  760. requirement for such links is usually unpredictable is one reason for
  761. making this attribute global. 
  762. </p>
  763. <p TEIform="p">Values on <ident>id</ident> attributes must be unique (their
  764. declared value is ID). Values on the <ident>n</ident> attribute however
  765. need not be; they may be used to carry a TEI canonical reference. A
  766. method for defining the structure of such canonical reference schemes is
  767. also provided, so that documents using it can be processed
  768. automatically. 
  769. </p>
  770. <p TEIform="p">The <ident>lang</ident> attribute indicates both the language and
  771. hence the writing system applicable to the element's content, thus
  772. providing explicit support for polyglot or multiscript texts. If no
  773. value is given, that of the element's direct parent is assumed. (A
  774. number of TEI attributes have this characteristic, which is catered for
  775. by a TEI-defined keyword). The value of this element identifies a
  776. special purpose <gi TEI="yes" TEIform="gi">language</gi> element which documents the language
  777. in use, optionally associating it with an external entity in which a
  778. formal <term TEIform="term">writing system declaration</term> (WSD) may be given.  
  779. </p>
  780. <p TEIform="p">A WSD  defines a language/writing system pair
  781. (for example, <q direct="unspecified" TEIform="q">Koine Greek, using TLG Beta Code</q>).
  782. and is formally defined by an auxiliary DTD  which allows each 
  783. character to be systematically defined and documented, in terms of
  784. existing international or other standards, public or private entity
  785. sets, ad hoc transliteration schemes or explicit definitions, as well as
  786. combinations of all four. 
  787. </p>
  788. <p TEIform="p">Finally, the global <ident>rend</ident> element may be used to give
  789. information about the physical presentation of the text in the source,
  790. where this is not otherwise given. A default rendition may be specified
  791. for all elements of a given type. No specific set of values is defined
  792. for this attribute in the current draft, though it is probable that some
  793. suitable set of DSSSL primitives will be proposed in a later version. 
  794. </p>
  795. <p TEIform="p">It should be stressed that the <ident>rend</ident> element is
  796. <emph TEIform="emph">not</emph> intended for use as a means of specifying the desired
  797. formatting of an element, except insofaras this may be determined by a
  798. desire to mimic the approximate appearance of the original text. Like
  799. other SGML applications, the TEI scheme attempts to provide elements for
  800. the encoding of those textual features deemed essential to a productive
  801. use of the encoded text; however, unlike most other SGML applications,
  802. the TEI scheme recognizes that for some, it is precisely the appearance
  803. of a text which is the object of research.  
  804. </p></div2></div1>
  805. <div1 id="adds" org="uniform" sample="complete" part="N" TEIform="div1"><head n="11" TEIform="head">The TEI additional tag sets</head> 
  806. <p TEIform="p">Ten additional tag sets are defined by the current TEI proposals.
  807. These include tag sets for special application areas such as the
  808. orthographic transcription of speech, the detailed physical description
  809. of manuscript or print material, and the recording of an
  810. <soCalled TEIform="soCalled">electronic variorum</soCalled> modelled on the traditional
  811. critical apparatus. A tag set is defined for the detailed documentation
  812. of contextual information needed by language corpora, as well  as for
  813. the detailed encoding of names and dates; abstractions such as networks,
  814. graphs or trees; mathematical formulae and tables etc.   
  815. </p>
  816. <p TEIform="p">In addition to these application-specific additional tag sets, some
  817. more general purpose additional tag sets are defined for
  818. <list type="simple" TEIform="list">
  819. <item TEIform="item">linking and alignment
  820. </item>
  821. <item TEIform="item">analysis and interpretation
  822. </item>
  823. <item TEIform="item">feature structure analysis
  824. </item> 
  825. </list></p>
  826. <p TEIform="p">The tag set for linking and alignment extends the set of linking and
  827. pointing elements already defined in the TEI core to provide facilities
  828. for linking to arbitrary locations or spans of texts, whether or not
  829. these are in the current document, and whether or not the target is an
  830. SGML document. Mechanisms are included for recording the alignment or
  831. correspondence of parts of a text, for example in multilingual corpora,
  832. or for marking the alignment of audio or video with a transcription of
  833. it. As such, this tag set provides a usefully large subset of the
  834. facilities offered by the HyTime standard, but with a considerably
  835. simpler and more efficient interface. <note place="unspecified" anchored="yes" TEIform="note">Witness the fact that, as
  836. of May 1995, support for the  TEI <term TEIform="term">extended pointer mechanism</term>
  837.  has already been implemented in Softquad's Panorama Pro, and Electronic
  838. Book Technology's DynaText --- the two market leaders amongst commercial
  839. SGML browsing software.</note> 
  840. </p>
  841. <p TEIform="p">As noted above, a generic segmentation element is defined for the
  842. identification of textual spans appropriate to any analytic scheme. An
  843. out-of-line generic  <gi TEI="yes" TEIform="gi">interp</gi> element may be used to link
  844. arbitrary text segments (which may be nested or discontinuous) with any
  845. user-defined set of attribute/value pair interpretations. Specific tags
  846. are also defined for the most common  requirements of linguistic
  847. analysis such as identification and typing of morphemes, words, phrases,
  848. and sentences. 
  849. </p>
  850. <p TEIform="p">A specialized tagset is also provided  for the encoding of abstract
  851. interpretations of a text, either in parallel with it or embedded within
  852. it. This is based on the <term TEIform="term">feature structure</term> notation
  853. employed in theoretical linguistics, but has applications beyond
  854. linguistic theory. <note place="unspecified" anchored="yes" TEIform="note">An introduction to this tag set is provided by
  855. D. T. Langendoen and G.F.  Simons ``A rationale for the TEI
  856. recommendations for feature-structure markup'' in <title TEIform="title">Computers and
  857. the Humanities</title> (forthcoming, 1995; for an extended discussion
  858. of an application of the feature structure scheme to the problems of
  859. encoding historical source materials, see D. I. Greenstein, and L.
  860. Burnard ``Speaking with one voice'' (ib).</note> 
  861. </p>
  862. <p TEIform="p">Using this mechanism, encoders can define arbitrarily complex
  863. bundles or sets of features  identified in a text, according to their
  864. own methodological bias. They may thus embed a whole range of
  865. interpretations of a text, linguistic, literary, or thematic, within a
  866. text in a controlled manner. The syntax defined by the Guidelines not
  867. only formalizes the way in which such features are encoded, but also
  868. provides for a detailed specification of legal feature value/pair
  869. combinations and rules determining, for example, the implication of
  870. under-specified or defaulted features. This is known as a <term TEIform="term">feature
  871. system declaration</term> and is defined by an auxiliary tag set.  
  872. </p>
  873. <p TEIform="p">An additional tag set is also provided for the encoding of degrees
  874. of uncertainty or ambiguity in the encoding of a text. These particular
  875. tag sets exhibit in a particularly noticeable form one of the chief
  876. strengths of the TEI approach to encoding: it provides the encoder with
  877. a well-defined set of tools which can be used to make explicit his or
  878. her reading of a text.  No claim to absolute authority is made by any
  879. encoder, nor ever should be; the TEI scheme merely allows encoders to
  880. <q direct="unspecified" TEIform="q">come clean</q> about what they have perceived in a text, to whatever
  881. degree of detail seems appropriate. 
  882. </p>
  883. <p TEIform="p">A user of the TEI scheme may combine as many or as few additional
  884. tag sets as suit his or her needs. The existence of tag sets for
  885. particular application areas in the current draft reflects, to some
  886. extent, accidents of history: no claim to systematic or encyclopaedic
  887. coverage is implied. Indeed, it is confidently expected that new tag
  888. sets will be added, and that their definition will form an important
  889. part of the continued work of this and successor projects.   
  890. </p></div1>
  891. <div1 org="uniform" sample="complete" part="N" TEIform="div1"><head n="12" TEIform="head">From General to Specific</head> 
  892. <p TEIform="p">The TEI Guidelines have taken more than five years to reach their
  893. present state, the first at which they can be said to be reasonably
  894. complete. In retrospect, it is doubtless true that they could have been
  895. created much more quickly with less involvement from the research
  896. community, or a clearer statement from it of a set of particular goals.
  897. But that statement would have inevitably limited the scope of the
  898. resulting scheme, providing exactly the kind of strait-jacket which we
  899. wished to avoid. Moreover, by prioritizing any one research agenda
  900. however well-articulated, we would have effectively disenfranchised and
  901. alienated all others. A little like the early Church fathers then, the
  902. TEI chose to provide as broad and as catholic a means of salvation as
  903. possible. 
  904. </p>
  905. <p TEIform="p">At the same time, the TEI scheme applies rigorously the principle
  906. <q direct="unspecified" TEIform="q">essentia non sunt multiplicanda praeter necessitatem</q><note place="unspecified" anchored="yes" TEIform="note">Generally
  907. attributed to William of Occam (1300-1349), this recommendation is known
  908. as <term TEIform="term">Occam's Razor</term>; it may be translated as <q direct="unspecified" TEIform="q">Essences
  909. should not be unnecessarily multiplied</q> and refers properly to the
  910. distinction made by the Scholiasts between <q direct="unspecified" TEIform="q">essence</q> --- those
  911. properties of an entity which define its type and <q direct="unspecified" TEIform="q">accidents</q> ---
  912. those properties specific only to one instance of an entity</note>.
  913. Rather than defining discrete elements for different kinds of list
  914. (bulleted, glossary, enumerated etc.). the TEI scheme defines a single
  915. <gi TEI="yes" TEIform="gi">list</gi> element which bears a <ident>type</ident> attribute to
  916. distinguish amongst these various kinds. In the same way, all kinds of
  917. links between document elements, whatever their semantics, are encoded
  918. using the same tags. To handle the indefinite number of elements
  919. potentially needed to handle all kinds of analysis and interpretation, a
  920. small number of generic tags are proposed which (in the case of the
  921. feature structure tag set referred to above) are sufficiently abstract
  922. and general to cater for almost any kind of interpretative judgment. 
  923. </p>
  924. <p TEIform="p">At the same time, there remain many situations in which the TEI's
  925. desire to exclude no-one has lead to a multiplication of distinctions at
  926. first sight rather bewildering. It seems to say the least unlikely that
  927. anyone will ever encode a document using every possible element defined
  928. by the union of every TEI tag set, though such a monster DTD is indeed
  929. possible.  
  930. </p>
  931. <!-- deleted to save space ========================================
  932. <P>Even in a relatively small area such as the definition of text
  933. classification schemes, the TEI proposes three parallel (and mutually
  934. incompatible)  methods. In the matter of hypertextual addressing the TEI
  935. syntax permits of 14 different <q>location methods</q>. Names of
  936. persons, places, and organizations may be left unmarked, tagged simply
  937. as referring strings, or analyzed into subcomponents specific to them.
  938. Bibliographic citations may be presented as simple prose, or as
  939. assemblages of specific elements, either highly structured or loosely
  940. assembled. The Guidelines are even, seemingly, unable to make up their
  941. mind whether to organize text into numbered or unnumbered divisions!   
  942. </P>
  943. <P>It is probable that many people confronted by the 1400 pages of the
  944. current printed version are likely to derive less comfort from knowing
  945. that somewhere in it exists precisely the general-purpose solution they
  946. need than they would from a demonstration of the application of that
  947. general mechanism to the specific problem currently facing them.</P>
  948. ===end deleted to save space ======================================== -->
  949. <p TEIform="p"> As published, the Guidelines constitute a substantial document unsuitable 
  950. for casual browsing, even in electronic form. The TEI therefore plans to
  951. make available a number of smaller introductory tutorials focused on
  952. particular application areas. Two such have already appeared: one
  953. dealing with terminological systems, <note place="unspecified" anchored="yes" TEIform="note">Melby, Alan et al <title TEIform="title">Terminology
  954. Interchange Format (TIF): a tutorial</title> (Vienna, Infoterm, 1993)
  955. </note> and the other on encoding of manuscript transcriptions <note place="unspecified" anchored="yes" TEIform="note">Robinson,
  956. Peter
  957. <title TEIform="title">Encoding of Primary Sources Using SGML</title>, Oxford, Office
  958. for Humanities Communication, 1994</note>. 
  959. </p>
  960. <p TEIform="p">A third tutorial has also recently been completed, 
  961. documenting a special pedagogically-motivated subset of some
  962. 200 elements, selected from the whole TEI scheme (not just the core). 
  963. Known as TEI Lite, this DTD has already been used in two electronic
  964. publishing projects and is in use at electronic text repositories at the
  965. Universitirs of Oxford, Virginia and Michigan, and elsewhere.  <note place="unspecified" anchored="yes" TEIform="note">At
  966. the time of writing, the document defining this scheme is only available
  967. in electronic form, as  (Sperberg-McQueen, C.M. and Lou Burnard <title TEIform="title">TEI
  968. Lite: An Introduction to the TEI encoding scheme</title> (Chicago and
  969. Oxford, May 1995)) from the URLs
  970. <code>http://www-tei.uic.edu/orgs/tei</code> or
  971. <code>http://info.ox.ac.uk/~archive/teilite</code></note>  
  972. </p>
  973. <p TEIform="p">The real proof of the effectiveness of the TEI design will come only
  974. with its wide-spread adoption, tailored to the particular needs of
  975. individual projects. As far as can be judged from the long list of early
  976. implementors, such evidence will soon be forthcoming. 
  977. </p></div1>
  978. <div1 org="uniform" sample="complete" part="N" TEIform="div1"><head n="13" TEIform="head">Conclusions</head> 
  979. <p TEIform="p">This article has focussed chiefly on the complexity and generality
  980. of the TEI scheme, with a view to demonstrating its intellectual
  981. adequacy and its potential as  a model for many SGML applications.  
  982. </p>
  983. <p TEIform="p">It has also attempted to demonstrate how a simple modular scheme can
  984. be implemented in such a way as to maximize the <q direct="unspecified" TEIform="q">interchange space</q>
  985. within which information interchange takes place.  
  986. </p>
  987. <p TEIform="p">The origins of the TEI scheme in the academic world mean that it has
  988. been designed with the widest possible set of applications in mind.
  989. Optimizing it for particular sets of users will be a new challenge.  
  990. </p>
  991. </div1>
  992. </body>
  993. </text>
  994. </tei.2>    
  995.