home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Professional / OS2PRO194.ISO / os2 / editor / sed / regex.h < prev    next >
C/C++ Source or Header  |  1994-01-31  |  9KB  |  193 lines

  1. /* Definitions for data structures callers pass the regex library.
  2.    Copyright (C) 1985, 1989 Free Software Foundation, Inc.
  3.  
  4.    This program is free software; you can redistribute it and/or modify
  5.    it under the terms of the GNU General Public License as published by
  6.    the Free Software Foundation; either version 1, or (at your option)
  7.    any later version.
  8.  
  9.    This program is distributed in the hope that it will be useful,
  10.    but WITHOUT ANY WARRANTY; without even the implied warranty of
  11.    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  12.    GNU General Public License for more details.
  13.  
  14.    You should have received a copy of the GNU General Public License
  15.    along with this program; if not, write to the Free Software
  16.    Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  17.  
  18.  
  19.    In other words, you are welcome to use, share and improve this program.
  20.    You are forbidden to forbid anyone else to use, share and improve
  21.    what you give them.   Help stamp out software-hoarding!  */
  22.  
  23.  
  24. /* Define number of parens for which we record the beginnings and ends.
  25.    This affects how much space the `struct re_registers' type takes up.  */
  26. #ifndef RE_NREGS
  27. #define RE_NREGS 10
  28. #endif
  29.  
  30. /* These bits are used in the obscure_syntax variable to choose among
  31.    alternative regexp syntaxes.  */
  32.  
  33. /* 1 means plain parentheses serve as grouping, and backslash
  34.      parentheses are needed for literal searching.
  35.    0 means backslash-parentheses are grouping, and plain parentheses
  36.      are for literal searching.  */
  37. #define RE_NO_BK_PARENS 1
  38.  
  39. /* 1 means plain | serves as the "or"-operator, and \| is a literal.
  40.    0 means \| serves as the "or"-operator, and | is a literal.  */
  41. #define RE_NO_BK_VBAR 2
  42.  
  43. /* 0 means plain + or ? serves as an operator, and \+, \? are literals.
  44.    1 means \+, \? are operators and plain +, ? are literals.  */
  45. #define RE_BK_PLUS_QM 4
  46.  
  47. /* 1 means | binds tighter than ^ or $.
  48.    0 means the contrary.  */
  49. #define RE_TIGHT_VBAR 8
  50.  
  51. /* 1 means treat \n as an _OR operator
  52.    0 means treat it as a normal character */
  53. #define RE_NEWLINE_OR 16
  54.  
  55. /* 0 means that a special characters (such as *, ^, and $) always have
  56.      their special meaning regardless of the surrounding context.
  57.    1 means that special characters may act as normal characters in some
  58.      contexts.  Specifically, this applies to:
  59.     ^ - only special at the beginning, or after ( or |
  60.     $ - only special at the end, or before ) or |
  61.     *, +, ? - only special when not after the beginning, (, or | */
  62. #define RE_CONTEXT_INDEP_OPS 32
  63.  
  64. /* 0 means that \ before anything inside [ and ] is taken as a real \.
  65.    1 means that such a \ escapes the following character.  This is a
  66.    special case for AWK. */
  67. #define RE_AWK_CLASS_HACK 64
  68.  
  69. /* Now define combinations of bits for the standard possibilities.  */
  70. #define RE_SYNTAX_AWK (RE_NO_BK_PARENS | RE_NO_BK_VBAR \
  71.             | RE_CONTEXT_INDEP_OPS | RE_AWK_CLASS_HACK)
  72. #define RE_SYNTAX_EGREP (RE_NO_BK_PARENS | RE_NO_BK_VBAR \
  73.             | RE_CONTEXT_INDEP_OPS | RE_NEWLINE_OR)
  74. #define RE_SYNTAX_GREP (RE_BK_PLUS_QM | RE_NEWLINE_OR)
  75. #define RE_SYNTAX_EMACS 0
  76.  
  77. /* This data structure is used to represent a compiled pattern. */
  78.  
  79. struct re_pattern_buffer
  80.   {
  81.     char *buffer;    /* Space holding the compiled pattern commands. */
  82.     long allocated;    /* Size of space that  buffer  points to */
  83.     long used;        /* Length of portion of buffer actually occupied */
  84.     char *fastmap;    /* Pointer to fastmap, if any, or zero if none. */
  85.             /* re_search uses the fastmap, if there is one,
  86.                to skip quickly over totally implausible characters */
  87.     char *translate;    /* Translate table to apply to all characters before comparing.
  88.                Or zero for no translation.
  89.                The translation is applied to a pattern when it is compiled
  90.                and to data when it is matched. */
  91.     char fastmap_accurate;
  92.             /* Set to zero when a new pattern is stored,
  93.                set to one when the fastmap is updated from it. */
  94.     char can_be_null;   /* Set to one by compiling fastmap
  95.                if this pattern might match the null string.
  96.                It does not necessarily match the null string
  97.                in that case, but if this is zero, it cannot.
  98.                2 as value means can match null string
  99.                but at end of range or before a character
  100.                listed in the fastmap.  */
  101.   };
  102.  
  103. /* Structure to store "register" contents data in.
  104.  
  105.    Pass the address of such a structure as an argument to re_match, etc.,
  106.    if you want this information back.
  107.  
  108.    start[i] and end[i] record the string matched by \( ... \) grouping i,
  109.    for i from 1 to RE_NREGS - 1.
  110.    start[0] and end[0] record the entire string matched. */
  111.  
  112. struct re_registers
  113.   {
  114.     int start[RE_NREGS];
  115.     int end[RE_NREGS];
  116.   };
  117.  
  118. /* These are the command codes that appear in compiled regular expressions, one per byte.
  119.   Some command codes are followed by argument bytes.
  120.   A command code can specify any interpretation whatever for its arguments.
  121.   Zero-bytes may appear in the compiled regular expression. */
  122.  
  123. enum regexpcode
  124.   {
  125.     unused,
  126.     exactn,    /* followed by one byte giving n, and then by n literal bytes */
  127.     begline,   /* fails unless at beginning of line */
  128.     endline,   /* fails unless at end of line */
  129.     jump,     /* followed by two bytes giving relative address to jump to */
  130.     on_failure_jump,     /* followed by two bytes giving relative address of place
  131.                     to resume at in case of failure. */
  132.     finalize_jump,     /* Throw away latest failure point and then jump to address. */
  133.     maybe_finalize_jump, /* Like jump but finalize if safe to do so.
  134.                 This is used to jump back to the beginning
  135.                 of a repeat.  If the command that follows
  136.                 this jump is clearly incompatible with the
  137.                 one at the beginning of the repeat, such that
  138.                 we can be sure that there is no use backtracking
  139.                 out of repetitions already completed,
  140.                 then we finalize. */
  141.     dummy_failure_jump,  /* jump, and push a dummy failure point.
  142.                 This failure point will be thrown away
  143.                 if an attempt is made to use it for a failure.
  144.                 A + construct makes this before the first repeat.  */
  145.     anychar,     /* matches any one character */
  146.     charset,     /* matches any one char belonging to specified set.
  147.             First following byte is # bitmap bytes.
  148.             Then come bytes for a bit-map saying which chars are in.
  149.             Bits in each byte are ordered low-bit-first.
  150.             A character is in the set if its bit is 1.
  151.             A character too large to have a bit in the map
  152.             is automatically not in the set */
  153.     charset_not, /* similar but match any character that is NOT one of those specified */
  154.     start_memory, /* starts remembering the text that is matched
  155.             and stores it in a memory register.
  156.             followed by one byte containing the register number.
  157.             Register numbers must be in the range 0 through NREGS. */
  158.     stop_memory, /* stops remembering the text that is matched
  159.             and stores it in a memory register.
  160.             followed by one byte containing the register number.
  161.             Register numbers must be in the range 0 through NREGS. */
  162.     duplicate,    /* match a duplicate of something remembered.
  163.             Followed by one byte containing the index of the memory register. */
  164.     before_dot,     /* Succeeds if before dot */
  165.     at_dot,     /* Succeeds if at dot */
  166.     after_dot,     /* Succeeds if after dot */
  167.     begbuf,      /* Succeeds if at beginning of buffer */
  168.     endbuf,      /* Succeeds if at end of buffer */
  169.     wordchar,    /* Matches any word-constituent character */
  170.     notwordchar, /* Matches any char that is not a word-constituent */
  171.     wordbeg,     /* Succeeds if at word beginning */
  172.     wordend,     /* Succeeds if at word end */
  173.     wordbound,   /* Succeeds if at a word boundary */
  174.     notwordbound, /* Succeeds if not at a word boundary */
  175.     syntaxspec,  /* Matches any character whose syntax is specified.
  176.             followed by a byte which contains a syntax code, Sword or such like */
  177.     notsyntaxspec /* Matches any character whose syntax differs from the specified. */
  178.   };
  179.  
  180. extern char *re_compile_pattern ();
  181. /* Is this really advertised? */
  182. extern void re_compile_fastmap ();
  183. extern int re_search (), re_search_2 ();
  184. extern int re_match (), re_match_2 ();
  185.  
  186. /* 4.2 bsd compatibility (yuck) */
  187. extern char *re_comp ();
  188. extern int re_exec ();
  189.  
  190. #ifdef SYNTAX_TABLE
  191. extern char *re_syntax_table;
  192. #endif
  193.