home *** CD-ROM | disk | FTP | other *** search
/ Monster Media 1993 #2 / Image.iso / gene / ukc_sidx.zip / UKC_SIDX.TXT < prev   
Text File  |  1993-09-02  |  7KB  |  139 lines

  1.                               UKC_SIDX.ARJ
  2.                               ~~~~~~~~~~~~
  3.       Two Special Surname/Soundex indexes to the 2% Census Sample
  4.       ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  5.  
  6. This archive contains:-
  7.  
  8. UKC_SIDX.TXT       The file you are now reading.
  9.  
  10. UKC_NI0.TXT    )   Two name indexes, derived from the original name
  11. UKC_SDX.TXT    )   index to the 2% Census Sample.
  12.  
  13. These files have been contructed specially for use with the program
  14. XTRACT, written by Ron MacRae and Rosemary Lockie, to help with
  15. extraction of households with specified surnames from the UK 2% Census
  16. Sample files, UKC_ccc.ARJ.  Our program will look up the surnames(s) you
  17. specify for your search and generate the appropriate search request by
  18. selecting the appropriate UKC_ccc.ARJ files to search for the counties
  19. the surname occurs in - automatically.
  20.  
  21. Both files contain a list of surnames found in the various county files,
  22. and are derived from the original name index, UKC_NIDX.TXT.  UKC_NI0.TXT
  23. is a straight alphabetical surname listing.  UKC_SDX.TXT has the soundex
  24. code for the surname added, and is sorted in order of soundex code.
  25.  
  26. UKC_NI0.TXT began as a straight copy of UKC_NIDX.  However for ease of
  27. use within XTRACT, and to keep the overall size of the index to a
  28. minimum, the following changes were made.
  29.  
  30. 1.   All counties for one surname have been combined onto the one line,
  31.      separated by commas.  The county trigraphs have been replaced with
  32.      dinomes, 01 to 92 to represent the UK counties.
  33.  
  34. 2.   Trailing question marks on surnames have been ignored, so that
  35.      entries for BROWN and BROWN? or BROWN?? have been combined together
  36.      in the resultant index.
  37.  
  38.      N.B. Question marks elsewhere in the surnames have been retained.
  39.  
  40. 3.   Some of the entries in the original surname index have been split,
  41.      if there appears to be more than one choice of surname.  So for
  42.      instance, two entries have been made for "SINCLAIR OR MCKELLAR",
  43.      "SINCLAIR" and "MCKELLAR" (found in BUT5101.TXT)  However, "DE LA
  44.      MOTTE" (DOR5106.TXT) and "VAN DEN HONERT" (WAR5117.TXT) and similar
  45.      have been retained as single names (in these two examples, if the
  46.      first name is less than 4 characters - although the overall
  47.      algorithm used for splitting is rather more complicated than that).
  48.  
  49.  
  50. Together, these two changes have resulted in a 3% saving in the size of
  51. the overall straight name index file:- 553,680 bytes, compared with
  52. 783,438 bytes in the original.  UKC_SDX in its raw state adds an
  53. additional 733,290 bytes (229,625 bytes compressed).
  54.  
  55. The format of the two files is as follows:-
  56.  
  57.      UKC_NI0.TXT format           surname{tab}dd,dd,dd...
  58.  
  59.      UKC_SDX.TXT format   sndx{sp}surname{tab}dd,dd,dd...
  60.  
  61. In UKC_SDX, a single space separates the soundex code from the surname. 
  62. A {tab} character (ASCII value 09) is used to separate the surname
  63. (variable length) from the list of dinomes.  The soundex code is always 4
  64. characters, and either of these indexes may be imported into a database
  65. file if desired.  If so, you will need to know that the maximum length of
  66. line is 236 characters, and the maximum length of surname contained
  67. within the 236 characters is 19.
  68.  
  69. The way to do this would be to create a database with the following
  70. structure:-
  71.  
  72. Soundex       5   (may be reduced to 4, after importing.  5 characters
  73.                   (allows for the space on import.
  74.  
  75. Data        236    Surname, and list of county dinomes.
  76.  
  77. Surname      19    To be filled in after import.
  78.  
  79. Please note that if you wish to separate the surname out as a separate
  80. field, you can do so with the following dBase command, or similar in your
  81. own database language:-
  82.  
  83. replace all surname with left(data,at(chr(9),data)-1)
  84.  
  85.  
  86.  
  87. A table of the counties, and the digraphs chosen follows:-
  88.  
  89. 01    ABD   Aberdeen                47    LKS   Lanarkshire
  90. 02    AGY   Anglesey                48    LAN   Lancashire
  91. 03    ARL   Argyll                  49    LEC   Leicestershire
  92. 04    AYR   Ayrshire                50    LIN   Lincolnshire
  93. 05    BAN   Banff                   51    LLS   Linlithgow
  94. 06    BDF   Bedfordshire            52    MER   Merioneth
  95. 07    BRK   Berkshire               53    MDX   Middlesex
  96. 08    BEW   Berwick                 54    MLN   Midlothian
  97. 09    BRE   Brecknockshire          55    MON   Monmouth
  98. 10    BKM   Buckingham              56    MGY   Montgomery
  99. 11    BUT   Bute                    57    MOR   Moray
  100. 12    CAI   Caithness               58    NAI   Nairn
  101. 13    CAM   Cambridgeshire          59    NFK   Norfolk
  102. 14    CGN   Cardiganshire           60    NTH   Northamptonshire
  103. 15    CMN   Carmarthenshire         61    NBL   Northumberland
  104. 16    CAE   Carnarvonshire          62    NTT   Nottinghamshire
  105. 17    CHS   Cheshire                63    ORK   Orkney
  106. 18    CLK   Clackmannan             64    OXF   Oxfordshire
  107. 19    CON   Cornwall                65    PEE   Peebles
  108. 20    CUL   Cumberland              66    PEM   Pembroke
  109. 21    DEN   Denbighshire            67    PER   Perthshire
  110. 22    DBY   Derbyshire              68    RAD   Radnor
  111. 23    DEV   Devon                   69    RFW   Renfrew
  112. 24    DOR   Dorset                  70    ROC   Ross
  113. 25    DNB   Dumbartonshire          71    ROX   Roxburgh
  114. 26    DFS   Dumfries                72    SEL   Selkirk
  115. 27    DUR   Durham                  73    SAL   Shropshire
  116. 28    EDN   Edinburgh               74    SOM   Somerset
  117. 29    ELG   Elgin                   75    STS   Staffordshire
  118. 30    ESS   Essex                   76    STI   Stirling
  119. 31    FIF   Fife                    77    SFK   Suffolk
  120. 32    FLN   Flint                   78    SRY   Surrey
  121. 33    ANS   Forfar (Angus)          79    SSX   Sussex
  122. 34    GLA   Glamorgan               80    SUT   Sutherland
  123. 35    GLS   Gloucestershire         81    WAR   Warwickshire
  124. 36    HAD   Haddingtonshire         82    WES   Westmorland
  125. 37    HAM   Hampshire               83    WIG   Wigtown
  126. 38    HEF   Hereford                84    WIL   Wiltshire
  127. 39    HRT   Hertfordshire           85    WOR   Worcestershire
  128. 40    HUN   Huntingdon              86    ERY   Yorkshire East Riding
  129. 41    INV   Inverness               87    NRY   Yorkshire North Riding
  130. 42    IOW   Isle of Wight           88    WRY   Yorkshire West Riding
  131. 43    KEN   Kent                    89    YKS   Yorkshire County
  132. 44    KCD   Kincardine              90    ZET   Shetland
  133. 45    KRS   Kinross                 91    ANT   Antrim
  134. 46    KKD   Kirkcudbright           92    RUT   Rutland
  135.  
  136.  
  137. This information has been prepared by Rosemary Lockie, 2:253/188 in
  138. FidoNet, 2nd September 1993.          
  139.