home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 10 Tools / 10-Tools.zip / sa104os2.zip / SATHR104.ZIP / SATHER / SYSTEM / GC / CORD / CORD.H < prev    next >
C/C++ Source or Header  |  1995-01-09  |  14KB  |  322 lines

  1. /* 
  2.  * Copyright (c) 1993-1994 by Xerox Corporation.  All rights reserved.
  3.  *
  4.  * THIS MATERIAL IS PROVIDED AS IS, WITH ABSOLUTELY NO WARRANTY EXPRESSED
  5.  * OR IMPLIED.  ANY USE IS AT YOUR OWN RISK.
  6.  *
  7.  * Permission is hereby granted to use or copy this program
  8.  * for any purpose,  provided the above notices are retained on all copies.
  9.  * Permission to modify the code and to distribute modified code is granted,
  10.  * provided the above notices are retained, and a notice that the code was
  11.  * modified is included with the above copyright notice.
  12.  *
  13.  * Author: Hans-J. Boehm (boehm@parc.xerox.com)
  14.  */
  15. /* Boehm, October 4, 1994 5:34 pm PDT */
  16.  
  17. /*
  18.  * Cords are immutable character strings.  A number of operations
  19.  * on long cords are much more efficient than their strings.h counterpart.
  20.  * In particular, concatenation takes constant time independent of the length
  21.  * of the arguments.  (Cords are represented as trees, with internal
  22.  * nodes representing concatenation and leaves consisting of either C
  23.  * strings or a functional description of the string.)
  24.  *
  25.  * The following are reasonable applications of cords.  They would perform
  26.  * unacceptably if C strings were used:
  27.  * - A compiler that produces assembly language output by repeatedly
  28.  *   concatenating instructions onto a cord representing the output file.
  29.  * - A text editor that converts the input file to a cord, and then
  30.  *   performs editing operations by producing a new cord representing
  31.  *   the file after echa character change (and keeping the old ones in an
  32.  *   edit history)
  33.  *
  34.  * For optimal performance, cords should be built by
  35.  * concatenating short sections.
  36.  * This interface is designed for maximum compatibility with C strings.
  37.  * ASCII NUL characters may be embedded in cords using CORD_from_fn.
  38.  * This is handled correctly, but CORD_to_char_star will produce a string
  39.  * with embedded NULs when given such a cord. 
  40.  *
  41.  * This interface is fairly big, largely for performance reasons.
  42.  * The most basic constants and functions:
  43.  *
  44.  * CORD - the type fo a cord;
  45.  * CORD_EMPTY - empty cord;
  46.  * CORD_len(cord) - length of a cord;
  47.  * CORD_cat(cord1,cord2) - concatenation of two cords;
  48.  * CORD_substr(cord, start, len) - substring (or subcord);
  49.  * CORD_pos i;  CORD_FOR(i, cord) {  ... CORD_pos_fetch(i) ... } -
  50.  *    examine each character in a cord.  CORD_pos_fetch(i) is the char.
  51.  * CORD_fetch(int i) - Retrieve i'th character (slowly).
  52.  * CORD_cmp(cord1, cord2) - compare two cords.
  53.  * CORD_from_file(FILE * f) - turn a read-only file into a cord.
  54.  * CORD_to_char_star(cord) - convert to C string.
  55.  *   (Non-NULL C constant strings are cords.)
  56.  * CORD_printf (etc.) - cord version of printf. Use %r for cords.
  57.  */
  58. # ifndef CORD_H
  59.  
  60. # define CORD_H
  61. # include <stddef.h>
  62. # include <stdio.h>
  63. /* Cords have type const char *.  This is cheating quite a bit, and not    */
  64. /* 100% portable.  But it means that nonempty character string        */
  65. /* constants may be used as cords directly, provided the string is    */
  66. /* never modified in place.  The empty cord is represented by, and    */
  67. /* can be written as, 0.                        */
  68.  
  69. typedef const char * CORD;
  70.  
  71. /* An empty cord is always represented as nil     */
  72. # define CORD_EMPTY 0
  73.  
  74. /* Is a nonempty cord represented as a C string? */
  75. #define CORD_IS_STRING(s) (*(s) != '\0')
  76.  
  77. /* Concatenate two cords.  If the arguments are C strings, they may     */
  78. /* not be subsequently altered.                        */
  79. CORD CORD_cat(CORD x, CORD y);
  80.  
  81. /* Concatenate a cord and a C string with known length.  Except for the    */
  82. /* empty string case, this is a special case of CORD_cat.  Since the    */
  83. /* length is known, it can be faster.                    */
  84. CORD CORD_cat_char_star(CORD x, const char * y, size_t leny);
  85.  
  86. /* Compute the length of a cord */
  87. size_t CORD_len(CORD x);
  88.  
  89. /* Cords may be represented by functions defining the ith character */
  90. typedef char (* CORD_fn)(size_t i, void * client_data);
  91.  
  92. /* Turn a functional description into a cord.     */
  93. CORD CORD_from_fn(CORD_fn fn, void * client_data, size_t len);
  94.  
  95. /* Return the substring (subcord really) of x with length at most n,    */
  96. /* starting at position i.  (The initial character has position 0.)    */
  97. CORD CORD_substr(CORD x, size_t i, size_t n);
  98.  
  99. /* Return the argument, but rebalanced to allow more efficient       */
  100. /* character retrieval, substring operations, and comparisons.        */
  101. /* This is useful only for cords that were built using repeated     */
  102. /* concatenation.  Guarantees log time access to the result, unless    */
  103. /* x was obtained through a large number of repeated substring ops    */
  104. /* or the embedded functional descriptions take longer to evaluate.    */
  105. /* May reallocate significant parts of the cord.  The argument is not    */
  106. /* modified; only the result is balanced.                */
  107. CORD CORD_balance(CORD x);
  108.  
  109. /* The following traverse a cord by applying a function to each     */
  110. /* character.  This is occasionally appropriate, especially where    */
  111. /* speed is crucial.  But, since C doesn't have nested functions,    */
  112. /* clients of this sort of traversal are clumsy to write.  Consider    */
  113. /* the functions that operate on cord positions instead.        */
  114.  
  115. /* Function to iteratively apply to individual characters in cord.    */
  116. typedef int (* CORD_iter_fn)(char c, void * client_data);
  117.  
  118. /* Function to apply to substrings of a cord.  Each substring is a     */
  119. /* a C character string, not a general cord.                */
  120. typedef int (* CORD_batched_iter_fn)(const char * s, void * client_data);
  121. # define CORD_NO_FN ((CORD_batched_iter_fn)0)
  122.  
  123. /* Apply f1 to each character in the cord, in ascending order,        */
  124. /* starting at position i. If                        */
  125. /* f2 is not CORD_NO_FN, then multiple calls to f1 may be replaced by    */
  126. /* a single call to f2.  The parameter f2 is provided only to allow    */
  127. /* some optimization by the client.  This terminates when the right    */
  128. /* end of this string is reached, or when f1 or f2 return != 0.  In the    */
  129. /* latter case CORD_iter returns != 0.  Otherwise it returns 0.        */
  130. /* The specified value of i must be < CORD_len(x).            */
  131. int CORD_iter5(CORD x, size_t i, CORD_iter_fn f1,
  132.            CORD_batched_iter_fn f2, void * client_data);
  133.  
  134. /* A simpler version that starts at 0, and without f2:    */
  135. int CORD_iter(CORD x, CORD_iter_fn f1, void * client_data);
  136. # define CORD_iter(x, f1, cd) CORD_iter5(x, 0, f1, CORD_NO_FN, cd)
  137.  
  138. /* Similar to CORD_iter5, but end-to-beginning.    No provisions for    */
  139. /* CORD_batched_iter_fn.                        */
  140. int CORD_riter4(CORD x, size_t i, CORD_iter_fn f1, void * client_data);
  141.  
  142. /* A simpler version that starts at the end:    */
  143. int CORD_riter(CORD x, CORD_iter_fn f1, void * client_data);
  144.  
  145. /* Functions that operate on cord positions.  The easy way to traverse    */
  146. /* cords.  A cord position is logically a pair consisting of a cord    */
  147. /* and an index into that cord.  But it is much faster to retrieve a    */
  148. /* charcter based on a position than on an index.  Unfortunately,    */
  149. /* positions are big (order of a few 100 bytes), so allocate them with    */
  150. /* caution.                                */
  151. /* Things in cord_pos.h should be treated as opaque, except as        */
  152. /* described below.  Also note that                    */
  153. /* CORD_pos_fetch, CORD_next and CORD_prev have both macro and function    */
  154. /* definitions.  The former may evaluate their argument more than once. */
  155. # include "cord_pos.h"
  156.  
  157. /*
  158.     Visible definitions from above:
  159.     
  160.     typedef <OPAQUE but fairly big> CORD_pos[1];
  161.     
  162.     /* Extract the cord from a position:
  163.     CORD CORD_pos_to_cord(CORD_pos p);
  164.     
  165.     /* Extract the current index from a position:
  166.     size_t CORD_pos_to_index(CORD_pos p);
  167.     
  168.     /* Fetch the character located at the given position:
  169.     char CORD_pos_fetch(CORD_pos p);
  170.     
  171.     /* Initialize the position to refer to the given cord and index.
  172.     /* Note that this is the most expensive function on positions:
  173.     void CORD_set_pos(CORD_pos p, CORD x, size_t i);
  174.     
  175.     /* Advance the position to the next character.
  176.     /* P must be initialized and valid.
  177.     /* Invalidates p if past end:
  178.     void CORD_next(CORD_pos p);
  179.     
  180.     /* Move the position to the preceding character.
  181.     /* P must be initialized and valid.
  182.     /* Invalidates p if past beginning:
  183.     void CORD_prev(CORD_pos p);
  184.     
  185.     /* Is the position valid, i.e. inside the cord?
  186.     int CORD_pos_valid(CORD_pos p);
  187. */
  188. # define CORD_FOR(pos, cord) \
  189.     for (CORD_set_pos(pos, cord, 0); CORD_pos_valid(pos); CORD_next(pos))
  190.  
  191.             
  192. /* An out of memory handler to call.  May be supplied by client.    */
  193. /* Must not return.                            */
  194. extern void (* CORD_oom_fn)(void);
  195.  
  196. /* Dump the representation of x to stdout in an implementation defined    */
  197. /* manner.  Intended for debugging only.                */
  198. void CORD_dump(CORD x);
  199.  
  200. /* The following could easily be implemented by the client.  They are    */
  201. /* provided in cord_xtra.c for convenience.                */
  202.  
  203. /* Concatenate a character to the end of a cord.    */
  204. CORD CORD_cat_char(CORD x, char c);
  205.  
  206. /* Concatenate n cords.    */
  207. CORD CORD_catn(int n, /* CORD */ ...);
  208.  
  209. /* Return the character in CORD_substr(x, i, 1)      */
  210. char CORD_fetch(CORD x, size_t i);
  211.  
  212. /* Return < 0, 0, or > 0, depending on whether x < y, x = y, x > y    */
  213. int CORD_cmp(CORD x, CORD y);
  214.  
  215. /* A generalization that takes both starting positions for the         */
  216. /* comparison, and a limit on the number of characters to be compared.    */
  217. int CORD_ncmp(CORD x, size_t x_start, CORD y, size_t y_start, size_t len);
  218.  
  219. /* Find the first occurrence of s in x at position start or later.    */
  220. /* Return the position of the first character of s in x, or        */
  221. /* CORD_NOT_FOUND if there is none.                    */
  222. size_t CORD_str(CORD x, size_t start, CORD s);
  223.  
  224. /* Return a cord consisting of i copies of (possibly NUL) c.  Dangerous    */
  225. /* in conjunction with CORD_to_char_star.                */
  226. /* The resulting representation takes constant space, independent of i.    */
  227. CORD CORD_chars(char c, size_t i);
  228. # define CORD_nul(i) CORD_chars('\0', (i))
  229.  
  230. /* Turn a file into cord.  The file must be seekable.  Its contents    */
  231. /* must remain constant.  The file may be accessed as an immediate    */
  232. /* result of this call and/or as a result of subsequent accesses to     */
  233. /* the cord.  Short files are likely to be immediately read, but    */
  234. /* long files are likely to be read on demand, possibly relying on     */
  235. /* stdio for buffering.                            */
  236. /* We must have exclusive access to the descriptor f, i.e. we may    */
  237. /* read it at any time, and expect the file pointer to be        */
  238. /* where we left it.  Normally this should be invoked as        */
  239. /* CORD_from_file(fopen(...))                        */
  240. /* CORD_from_file arranges to close the file descriptor when it is no    */
  241. /* longer needed (e.g. when the result becomes inaccessible).        */ 
  242. /* The file f must be such that ftell reflects the actual character    */
  243. /* position in the file, i.e. the number of characters that can be     */
  244. /* or were read with fread.  On UNIX systems this is always true.  On    */
  245. /* MS Windows systems, f must be opened in binary mode.            */
  246. CORD CORD_from_file(FILE * f);
  247.  
  248. /* Equivalent to the above, except that the entire file will be read    */
  249. /* and the file pointer will be closed immediately.            */
  250. /* The binary mode restriction from above does not apply.        */
  251. CORD CORD_from_file_eager(FILE * f);
  252.  
  253. /* Equivalent to the above, except that the file will be read on demand.*/
  254. /* The binary mode restriction applies.                    */
  255. CORD CORD_from_file_lazy(FILE * f);
  256.  
  257. /* Turn a cord into a C string.    The result shares no structure with    */
  258. /* x, and is thus modifiable.                        */
  259. char * CORD_to_char_star(CORD x);
  260.  
  261. /* Identical to the above, but the result may share structure with    */
  262. /* the argument and is thus not modifiable.                */
  263. const char * CORD_to_const_char_star(CORD x); 
  264.  
  265. /* Write a cord to a file, starting at the current position.  No    */
  266. /* trailing NULs are newlines are added.                */
  267. /* Returns EOF if a write error occurs, 1 otherwise.            */
  268. int CORD_put(CORD x, FILE * f);
  269.  
  270. /* "Not found" result for the following two functions.            */
  271. # define CORD_NOT_FOUND ((size_t)(-1))
  272.  
  273. /* A vague analog of strchr.  Returns the position (an integer, not    */
  274. /* a pointer) of the first occurrence of (char) c inside x at position     */
  275. /* i or later. The value i must be < CORD_len(x).            */
  276. size_t CORD_chr(CORD x, size_t i, int c);
  277.  
  278. /* A vague analog of strrchr.  Returns index of the last occurrence    */
  279. /* of (char) c inside x at position i or earlier. The value i        */
  280. /* must be < CORD_len(x).                        */
  281. size_t CORD_rchr(CORD x, size_t i, int c);
  282.  
  283.  
  284. /* The following are also not primitive, but are implemented in     */
  285. /* cordprnt.c.  They provide functionality similar to the ANSI C    */
  286. /* functions with corresponding names, but with the following        */
  287. /* additions and changes:                        */
  288. /* 1. A %r conversion specification specifies a CORD argument.  Field    */
  289. /*    width, precision, etc. have the same semantics as for %s.        */
  290. /*    (Note that %c,%C, and %S were already taken.)            */
  291. /* 2. The format string is represented as a CORD.                */
  292. /* 3. CORD_sprintf and CORD_vsprintf assign the result through the 1st    */     /*    argument.    Unlike their ANSI C versions, there is no need to guess    */
  293. /*    the correct buffer size.                        */
  294. /* 4. Most of the conversions are implement through the native         */
  295. /*    vsprintf.  Hence they are usually no faster, and             */
  296. /*    idiosyncracies of the native printf are preserved.  However,    */
  297. /*    CORD arguments to CORD_sprintf and CORD_vsprintf are NOT copied;    */
  298. /*    the result shares the original structure.  This may make them    */
  299. /*    very efficient in some unusual applications.            */
  300. /*    The format string is copied.                    */
  301. /* All functions return the number of characters generated or -1 on    */
  302. /* error.  This complies with the ANSI standard, but is inconsistent    */
  303. /* with some older implementations of sprintf.                */
  304.  
  305. /* The implementation of these is probably less portable than the rest    */
  306. /* of this package.                            */
  307.  
  308. #ifndef CORD_NO_IO
  309.  
  310. #include <stdarg.h>
  311.  
  312. int CORD_sprintf(CORD * out, CORD format, ...);
  313. int CORD_vsprintf(CORD * out, CORD format, va_list args);
  314. int CORD_fprintf(FILE * f, CORD format, ...);
  315. int CORD_vfprintf(FILE * f, CORD format, va_list args);
  316. int CORD_printf(CORD format, ...);
  317. int CORD_vprintf(CORD format, va_list args);
  318.  
  319. #endif /* CORD_NO_IO */
  320.  
  321. # endif /* CORD_H */
  322.