home *** CD-ROM | disk | FTP | other *** search
/ Developer CD Series 1997 May: Technology Seed / Mac Tech Seed May '97.toast / Mac OS 8b5 / Docs-Interfaces-Libs / Text Encoding Convertors / Headers / TextCommon.h < prev    next >
Encoding:
C/C++ Source or Header  |  1997-04-29  |  13.3 KB  |  311 lines  |  [TEXT/MPS ]

  1. /*
  2.      File:        TextCommon.h
  3.  
  4.      Contains:    Definitions for common text types, values for them, and related routines 
  5.  
  6.      Version:    System 8.0
  7.  
  8.      Copyright:    © 1984-1997 by Apple Computer, Inc.
  9.                  All rights reserved.
  10.  
  11. */
  12. #ifndef __TEXTCOMMON__
  13. #define __TEXTCOMMON__
  14.  
  15. #ifndef __TYPES__
  16. #include <Types.h>
  17. #endif
  18.  
  19. #ifdef __cplusplus
  20. extern "C" {
  21. #endif
  22.  
  23. #if PRAGMA_IMPORT_SUPPORTED
  24. #pragma import on
  25. #endif
  26.  
  27. #if PRAGMA_ALIGN_SUPPORTED
  28. #pragma options align=mac68k
  29. #endif
  30.  
  31. /*
  32.  The following 7 typedefs are required for seeds until they get
  33.  moved to a future version of Types.[hp] in a future ETO release.
  34.  Also note that seeds should include a copy of the new TextCommon.[hp].
  35. */
  36. typedef UInt8 *BytePtr;
  37. typedef UInt32 ByteCount;
  38. typedef UInt32 ItemCount;
  39. typedef UInt32 OptionBits;
  40. typedef short RegionCode;
  41. typedef UInt32 ByteOffset;
  42. typedef const void *ConstLogicalAddress;
  43.  
  44. /* LocaleIdentifier is an obsolete Copland typedef, will be removed soon*/
  45. typedef UInt32 LocaleIdentifier;
  46. /* TextEncodingBase type & values */
  47. /* (values 0-32 correspond to the Script Codes defined in Inside Macintosh: Text pages 6-52 and 6-53 */
  48. typedef UInt32 TextEncodingBase;
  49.  
  50. enum {
  51.                                                                 /* Mac OS encodings*/
  52.     kTextEncodingMacRoman        = 0L,
  53.     kTextEncodingMacJapanese    = 1,
  54.     kTextEncodingMacChineseTrad    = 2,
  55.     kTextEncodingMacKorean        = 3,
  56.     kTextEncodingMacArabic        = 4,
  57.     kTextEncodingMacHebrew        = 5,
  58.     kTextEncodingMacGreek        = 6,
  59.     kTextEncodingMacCyrillic    = 7,
  60.     kTextEncodingMacDevanagari    = 9,
  61.     kTextEncodingMacGurmukhi    = 10,
  62.     kTextEncodingMacGujarati    = 11,
  63.     kTextEncodingMacOriya        = 12,
  64.     kTextEncodingMacBengali        = 13,
  65.     kTextEncodingMacTamil        = 14,
  66.     kTextEncodingMacTelugu        = 15,
  67.     kTextEncodingMacKannada        = 16,
  68.     kTextEncodingMacMalayalam    = 17,
  69.     kTextEncodingMacSinhalese    = 18,
  70.     kTextEncodingMacBurmese        = 19,
  71.     kTextEncodingMacKhmer        = 20,
  72.     kTextEncodingMacThai        = 21,
  73.     kTextEncodingMacLaotian        = 22,
  74.     kTextEncodingMacGeorgian    = 23,
  75.     kTextEncodingMacArmenian    = 24,
  76.     kTextEncodingMacChineseSimp    = 25,
  77.     kTextEncodingMacTibetan        = 26,
  78.     kTextEncodingMacMongolian    = 27,
  79.     kTextEncodingMacEthiopic    = 28,
  80.     kTextEncodingMacCentralEurRoman = 29,
  81.     kTextEncodingMacVietnamese    = 30,
  82.     kTextEncodingMacExtArabic    = 31,                            /* The following use script code 0, smRoman*/
  83.     kTextEncodingMacSymbol        = 33,
  84.     kTextEncodingMacDingbats    = 34,
  85.     kTextEncodingMacTurkish        = 35,
  86.     kTextEncodingMacCroatian    = 36,
  87.     kTextEncodingMacIcelandic    = 37,
  88.     kTextEncodingMacRomanian    = 38,                            /* The following use script code 4, smArabic*/
  89.     kTextEncodingMacFarsi        = 0x8C,                            /* Like MacArabic but uses Farsi digits*/
  90.                                                                 /* The following use script code 7, smCyrillic*/
  91.     kTextEncodingMacUkrainian    = 0x98,                            /* The following use script code 32, smUnimplemented*/
  92.     kTextEncodingMacVT100        = 0xFC,                            /* VT100/102 font from Comm Toolbox: Latin-1 repertoire + box drawing etc*/
  93.                                                                 /* Special Mac OS encodings*/
  94.     kTextEncodingMacHFS            = 0xFF,                            /* Meta-value, should never appear in a table.*/
  95.                                                                 /* Unicode & ISO UCS encodings begin at 0x100*/
  96.     kTextEncodingUnicodeDefault    = 0x0100,                        /* Meta-value, should never appear in a table.*/
  97.     kTextEncodingUnicodeV1_1    = 0x0101,
  98.     kTextEncodingISO10646_1993    = 0x0101,                        /* Code points identical to Unicode 1.1*/
  99.     kTextEncodingUnicodeV2_0    = 0x0103,                        /* New location for Korean Hangul*/
  100.                                                                 /* ISO 8-bit and 7-bit encodings begin at 0x200*/
  101.     kTextEncodingISOLatin1        = 0x0201,                        /* ISO 8859-1*/
  102.     kTextEncodingISOLatin2        = 0x0202,                        /* ISO 8859-2*/
  103.     kTextEncodingISOLatinCyrillic = 0x0205,                        /* ISO 8859-5*/
  104.     kTextEncodingISOLatinArabic    = 0x0206,                        /* ISO 8859-6, = ASMO 708, =DOS CP 708*/
  105.     kTextEncodingISOLatinGreek    = 0x0207,                        /* ISO 8859-7*/
  106.     kTextEncodingISOLatinHebrew    = 0x0208,                        /* ISO 8859-8*/
  107.     kTextEncodingISOLatin5        = 0x0209,                        /* ISO 8859-9*/
  108.                                                                 /* MS-DOS & Windows encodings begin at 0x400*/
  109.     kTextEncodingDOSLatinUS        = 0x0400,                        /* code page 437*/
  110.     kTextEncodingDOSGreek        = 0x0405,                        /* code page 737 (formerly code page 437G)*/
  111.     kTextEncodingDOSBalticRim    = 0x0406,                        /* code page 775*/
  112.     kTextEncodingDOSLatin1        = 0x0410,                        /* code page 850, "Multilingual"*/
  113.     kTextEncodingDOSGreek1        = 0x0411,                        /* code page 851*/
  114.     kTextEncodingDOSLatin2        = 0x0412,                        /* code page 852, Slavic*/
  115.     kTextEncodingDOSCyrillic    = 0x0413,                        /* code page 855, IBM Cyrillic*/
  116.     kTextEncodingDOSTurkish        = 0x0414,                        /* code page 857, IBM Turkish*/
  117.     kTextEncodingDOSPortuguese    = 0x0415,                        /* code page 860*/
  118.     kTextEncodingDOSIcelandic    = 0x0416,                        /* code page 861*/
  119.     kTextEncodingDOSHebrew        = 0x0417,                        /* code page 862*/
  120.     kTextEncodingDOSCanadianFrench = 0x0418,                    /* code page 863*/
  121.     kTextEncodingDOSArabic        = 0x0419,                        /* code page 864*/
  122.     kTextEncodingDOSNordic        = 0x041A,                        /* code page 865*/
  123.     kTextEncodingDOSRussian        = 0x041B,                        /* code page 866*/
  124.     kTextEncodingDOSGreek2        = 0x041C,                        /* code page 869, IBM Modern Greek*/
  125.     kTextEncodingDOSThai        = 0x041D,                        /* code page 874, also for Windows*/
  126.     kTextEncodingDOSJapanese    = 0x0420,                        /* code page 932, also for Windows*/
  127.     kTextEncodingDOSChineseSimplif = 0x0421,                    /* code page 936, also for Windows*/
  128.     kTextEncodingDOSKorean        = 0x0422,                        /* code page 949, also for Windows; Unified Hangul Code*/
  129.     kTextEncodingDOSChineseTrad    = 0x0423,                        /* code page 950, also for Windows*/
  130.     kTextEncodingWindowsLatin1    = 0x0500,                        /* code page 1252*/
  131.     kTextEncodingWindowsANSI    = 0x0500,                        /* code page 1252 (alternate name)*/
  132.     kTextEncodingWindowsLatin2    = 0x0501,                        /* code page 1250, Central Europe*/
  133.     kTextEncodingWindowsCyrillic = 0x0502,                        /* code page 1251, Slavic Cyrillic*/
  134.     kTextEncodingWindowsGreek    = 0x0503,                        /* code page 1253*/
  135.     kTextEncodingWindowsLatin5    = 0x0504,                        /* code page 1254, Turkish*/
  136.     kTextEncodingWindowsHebrew    = 0x0505,                        /* code page 1255*/
  137.     kTextEncodingWindowsArabic    = 0x0506,                        /* code page 1256*/
  138.     kTextEncodingWindowsBalticRim = 0x0507,                        /* code page 1257*/
  139.     kTextEncodingWindowsKoreanJohab = 0x0510,                    /* code page 1361, for Windows NT*/
  140.                                                                 /* Various national standards begin at 0x600*/
  141.     kTextEncodingUS_ASCII        = 0x0600,
  142.     kTextEncodingJIS_X0201_76    = 0x0620,
  143.     kTextEncodingJIS_X0208_83    = 0x0621,
  144.     kTextEncodingJIS_X0208_90    = 0x0622,
  145.     kTextEncodingJIS_X0212_90    = 0x0623,
  146.     kTextEncodingJIS_C6226_78    = 0x0624,
  147.     kTextEncodingGB_2312_80        = 0x0630,
  148.     kTextEncodingGBK_95            = 0x0631,                        /* annex to GB 13000-93; for Windows 95*/
  149.     kTextEncodingKSC_5601_87    = 0x0640,                        /* same as KSC 5601-92 without Johab annex*/
  150.     kTextEncodingKSC_5601_92_Johab = 0x0641,                    /* KSC 5601-92 Johab annex*/
  151.     kTextEncodingCNS_11643_92_P1 = 0x0651,                        /* CNS 11643-1992 plane 1*/
  152.     kTextEncodingCNS_11643_92_P2 = 0x0652,                        /* CNS 11643-1992 plane 2*/
  153.     kTextEncodingCNS_11643_92_P3 = 0x0653,                        /* CNS 11643-1992 plane 3 (was plane 14 in 1986 version)*/
  154.                                                                 /* ISO 2022 collections begin at 0x800*/
  155.     kTextEncodingISO_2022_JP    = 0x0820,
  156.     kTextEncodingISO_2022_JP_2    = 0x0821,
  157.     kTextEncodingISO_2022_CN    = 0x0830,
  158.     kTextEncodingISO_2022_CN_EXT = 0x0831,
  159.     kTextEncodingISO_2022_KR    = 0x0840,                        /* EUC collections begin at 0x900*/
  160.     kTextEncodingEUC_JP            = 0x0920,                        /* ISO 646, 1-byte katakana, JIS 208, JIS 212*/
  161.     kTextEncodingEUC_CN            = 0x0930,                        /* ISO 646, GB 2312-80*/
  162.     kTextEncodingEUC_TW            = 0x0931,                        /* ISO 646, CNS 11643-1992 Planes 1-16*/
  163.     kTextEncodingEUC_KR            = 0x0940,                        /* ISO 646, KS C 5601-1987*/
  164.                                                                 /* Misc standards begin at 0xA00*/
  165.     kTextEncodingShiftJIS        = 0x0A01,                        /* plain Shift-JIS*/
  166.     kTextEncodingKOI8_R            = 0x0A02,                        /* Russian internet standard*/
  167.     kTextEncodingBig5            = 0x0A03,                        /* Big-5 (has variants)*/
  168.     kTextEncodingMacRomanLatin1    = 0x0A04,                        /* Mac OS Roman permuted to align with ISO Latin-1*/
  169.     kTextEncodingHZ_GB_2312        = 0x0A05,                        /* HZ (RFC 1842, for Chinese mail & news)*/
  170.                                                                 /* Other platform encodings*/
  171.     kTextEncodingNextStepLatin    = 0x0B01,                        /* NextStep encoding*/
  172.                                                                 /* Special value*/
  173.     kTextEncodingMultiRun        = 0x0FFF,                        /* Multi-encoding text with external run info*/
  174.                                                                 /* The following are older names for backward compatibility*/
  175.     kTextEncodingMacTradChinese    = 2,
  176.     kTextEncodingMacRSymbol        = 8,
  177.     kTextEncodingMacSimpChinese    = 25,
  178.     kTextEncodingMacGeez        = 28,
  179.     kTextEncodingMacEastEurRoman = 29,
  180.     kTextEncodingMacUninterp    = 32
  181. };
  182.  
  183. /* TextEncodingVariant type & values */
  184. typedef UInt32 TextEncodingVariant;
  185.  
  186. enum {
  187.                                                                 /* Default TextEncodingVariant, for any TextEncodingBase*/
  188.     kTextEncodingDefaultVariant    = 0,                            /* Variants of kTextEncodingMacJapanese*/
  189.     kMacJapaneseStandardVariant    = 0,
  190.     kMacJapaneseStdNoVerticalsVariant = 1,
  191.     kMacJapaneseBasicVariant    = 2,
  192.     kMacJapanesePostScriptScrnVariant = 3,
  193.     kMacJapanesePostScriptPrintVariant = 4,
  194.     kMacJapaneseVertAtKuPlusTenVariant = 5,                        /* Variant options for most Japanese encodings (MacJapanese, ShiftJIS, EUC-JP, ISO 2022-JP)    */
  195.                                                                 /* These can be OR-ed into the variant value in any combination*/
  196.     kJapaneseNoOneByteKanaOption = 0x20,
  197.     kJapaneseUseAsciiBackslashOption = 0x40,                    /* Variants of kTextEncodingMacArabic*/
  198.     kMacArabicStandardVariant    = 0,                            /* 0xC0 is 8-spoke asterisk, 0x2A & 0xAA are asterisk (e.g. Cairo)*/
  199.     kMacArabicTrueTypeVariant    = 1,                            /* 0xC0 is asterisk, 0x2A & 0xAA are multiply signs (e.g. Baghdad)*/
  200.     kMacArabicThuluthVariant    = 2,                            /* 0xC0 is Arabic five-point star, 0x2A & 0xAA are multiply signs*/
  201.     kMacArabicAlBayanVariant    = 3,                            /* 8-spoke asterisk, multiply sign, Koranic ligatures & parens*/
  202.                                                                 /* Variants of kTextEncodingMacFarsi*/
  203.     kMacFarsiStandardVariant    = 0,                            /* 0xC0 is 8-spoke asterisk, 0x2A & 0xAA are asterisk (e.g. Tehran)*/
  204.     kMacFarsiTrueTypeVariant    = 1,                            /* asterisk, multiply signs, Koranic ligatures, geometric shapes*/
  205.                                                                 /* Variants of kTextEncodingMacHebrew*/
  206.     kMacHebrewStandardVariant    = 0,
  207.     kMacHebrewFigureSpaceVariant = 1,                            /* Variants of Unicode & ISO 10646 encodings*/
  208.     kUnicodeNoSubset            = 0,
  209.     kUnicodeNoCompatibilityVariant = 1,
  210.     kUnicodeMaxDecomposedVariant = 2,
  211.     kUnicodeNoComposedVariant    = 3,
  212.     kUnicodeNoCorporateVariant    = 4,                            /* Variants of Big-5 encoding*/
  213.     kBig5_BasicVariant            = 0,
  214.     kBig5_StandardVariant        = 1,                            /* 0xC6A1-0xC7FC: kana, Cyrillic, enclosed numerics*/
  215.     kBig5_ETenVariant            = 2,                            /* adds kana, Cyrillic, radicals, etc with hi bytes C6-C8,F9*/
  216.                                                                 /* The following are older names for backward compatibility*/
  217.     kJapaneseStandardVariant    = 0,
  218.     kJapaneseStdNoVerticalsVariant = 1,
  219.     kJapaneseBasicVariant        = 2,
  220.     kJapanesePostScriptScrnVariant = 3,
  221.     kJapanesePostScriptPrintVariant = 4,
  222.     kJapaneseVertAtKuPlusTenVariant = 5,                        /* kJapaneseStdNoOneByteKanaVariant = 6,    // replaced by kJapaneseNoOneByteKanaOption*/
  223.                                                                 /* kJapaneseBasicNoOneByteKanaVariant = 7,    // replaced by kJapaneseNoOneByteKanaOption    */
  224.     kHebrewStandardVariant        = 0,
  225.     kHebrewFigureSpaceVariant    = 1
  226. };
  227.  
  228. /* TextEncodingFormat type & values */
  229. typedef UInt32 TextEncodingFormat;
  230.  
  231. enum {
  232.                                                                 /* Default TextEncodingFormat for any TextEncodingBase*/
  233.     kTextEncodingDefaultFormat    = 0,                            /* Formats for Unicode & ISO 10646*/
  234.     kUnicode16BitFormat            = 0,
  235.     kUnicodeUTF7Format            = 1,
  236.     kUnicodeUTF8Format            = 2,
  237.     kUnicode32BitFormat            = 3
  238. };
  239.  
  240. /* TextEncoding type */
  241. typedef UInt32 TextEncoding;
  242. /* name part selector for GetTextEncodingName*/
  243. typedef UInt32 TextEncodingNameSelector;
  244.  
  245. enum {
  246.     kTextEncodingFullName        = 0,
  247.     kTextEncodingBaseName        = 0,
  248.     kTextEncodingVariantName    = 0,
  249.     kTextEncodingFormatName        = 0
  250. };
  251.  
  252. /* Types used in conversion */
  253. struct ScriptCodeRun {
  254.     ByteOffset                         offset;
  255.     ScriptCode                         script;
  256. };
  257. typedef struct ScriptCodeRun ScriptCodeRun;
  258.  
  259. typedef ScriptCodeRun *ScriptCodeRunPtr;
  260. typedef const ScriptCodeRun *ConstScriptCodeRunPtr;
  261. struct TextEncodingRun {
  262.     ByteOffset                         offset;
  263.     TextEncoding                     textEncoding;
  264. };
  265. typedef struct TextEncodingRun TextEncodingRun;
  266.  
  267. typedef UInt8 *TextPtr;
  268. typedef const UInt8 *ConstTextPtr;
  269. typedef TextEncodingRun *TextEncodingRunPtr;
  270. typedef TextEncodingRun *ConstTextEncodingRunPtr;
  271. /* enums for TextEncoding Conversion routines */
  272.  
  273. enum {
  274.     kTextScriptDontCare            = -128,
  275.     kTextLanguageDontCare        = -128,
  276.     kTextRegionDontCare            = -128
  277. };
  278.  
  279. /* Prototypes for TextEncoding functions */
  280. extern pascal TextEncoding CreateTextEncoding(TextEncodingBase encodingBase, TextEncodingVariant encodingVariant, TextEncodingFormat encodingFormat);
  281.  
  282. extern pascal TextEncodingBase GetTextEncodingBase(TextEncoding encoding);
  283.  
  284. extern pascal TextEncodingVariant GetTextEncodingVariant(TextEncoding encoding);
  285.  
  286. extern pascal TextEncodingFormat GetTextEncodingFormat(TextEncoding encoding);
  287.  
  288. extern pascal TextEncoding ResolveDefaultTextEncoding(TextEncoding encoding);
  289.  
  290. extern OSStatus GetTextEncodingName(TextEncoding iEncoding, TextEncodingNameSelector iNamePartSelector, RegionCode iPreferredRegion, TextEncoding iPreferredEncoding, ByteCount iBufLen, ByteCount *oNameLength, RegionCode *oActualRegion, TextEncoding *oActualEncoding, TextPtr oEncodingName);
  291.  
  292. extern pascal OSStatus UpgradeScriptInfoToTextEncoding(ScriptCode textScriptID, LangCode textLanguageID, RegionCode regionID, ConstStr255Param textFontname, TextEncoding *encoding);
  293.  
  294. extern pascal OSStatus RevertTextEncodingToScriptInfo(TextEncoding encoding, ScriptCode *textScriptID, LangCode *textLanguageID, Str255 textFontname);
  295.  
  296.  
  297. #if PRAGMA_ALIGN_SUPPORTED
  298. #pragma options align=reset
  299. #endif
  300.  
  301. #if PRAGMA_IMPORT_SUPPORTED
  302. #pragma import off
  303. #endif
  304.  
  305. #ifdef __cplusplus
  306. }
  307. #endif
  308.  
  309. #endif /* __TEXTCOMMON__ */
  310.  
  311.