home *** CD-ROM | disk | FTP | other *** search
/ DOS/V Power Report 1996 August / VPR9608B.ISO / info_s / readme.txt < prev   
Text File  |  1996-05-28  |  21KB  |  390 lines

  1. IBM情報検索パック(InfoSearch) お試し版 (OS/2 Warp版)
  2.  
  3. ご試用条件
  4.  
  5. この『IBM情報検索パック(InfoSearch)お試し版』(以下『お試し版』と略す)は,
  6. 試用期間中に限って『お試し版』の試験的使用と機能評価目的のために限り,
  7. ダウンロードしてご使用いただくものとします。
  8. 本試用条件に定める場合を除き,『お試し版』を複製・逆コンパイル・逆アセンブル・
  9. 再使用許諾・送信・賃貸・貸与・再販および譲渡することはできません。
  10. 『お試し版』は特定物として現存するままの状態で提供され,日本アイ・ビー・エム
  11. 株式会社は,この『お試し版』瑕疵およびその使用結果について一切保証せず,
  12. 賠償責任も負いません。
  13. この『お試し版』の著作権は,IBMコーポレーション(米国)にあります。
  14. この『お試し版』の試用期間は平成8年7月31日までで,同日付をもってお客様の
  15. 使用権は終了します。試用期間を過ぎると,『お試し版』は機能しなくなります。
  16. 『お試し版』の使用権の終了後は,『お試し版』の全てを消去していただくものとします。
  17.  
  18.  
  19. IBM情報検索パック(InfoSearch)
  20.  
  21. 高速全文検索はInfoSearchにおまかせください!!
  22.  
  23. 情報検索パック(Information Search Pak,以下InfoSearchと略します)は,インターネット,
  24. イントラネット,クライアント・サーバー,スタンドアロンなどのさまざまな環境で
  25. 使える高速全文検索のソリューションを提供する製品です。                                                                                                                                                                                                                                                          
  26. InfoSearchは,高速全文検索エンジンGTRと,GTRを呼び出すサンプル・プログラムと
  27. から構成されています。                                                                            
  28. GTRは,検索エンジンへのインターフェースとして,文書テキストを高速に検索する
  29. C言語関数のAPI(Application Programming Interface)を提供しています。                                                                                                          
  30. サンプル・プログラムとして,インターネット,イントラネット環境で実用的に使用
  31. できるWWW検索用プログラムと,GTRの機能を気軽に体験できるテスト用プログラム
  32. とが含まれています。これらのサンプル・プログラムにはソース・コードが付属して
  33. いますので,
  34. カストマイズやAPIの使い方の学習が容易におこなえます。
  35. InfoSearchは,現在,AIX版とOS/2版が出荷されています。
  36.  
  37. 日本アイ・ビー・エムの検索サービスとしての実績
  38. GTRは,日本アイ・ビー・エムのインターネットでの検索サービスや
  39. OfficeSearch/6000などの製品の全文検索エンジンとして使用されています。
  40.  
  41. 日本アイ・ビー・エムのWWWサーバーの検索 
  42.       (注1)http://www.ibm.co.jp/Search/
  43.  
  44. IBMLink 日本アイ・ビー・エムのプレス・リリースの検索
  45.               http://www.ibmlink.japan.ibm.co.jp/cgi-bin/pres.sh
  46.  
  47. IBMLink 日本アイ・ビー・エムの講習会案内の検索  
  48.               http://www.ibmlink.japan.ibm.co.jp/cgi-bin/cees.sh
  49.                                                                      
  50. IBMLink IBM出版物の検索 
  51.               http://www.ibmlink.japan.ibm.co.jp/pubs/poe_srch.html
  52.                                                                                    
  53. 日本アイ・ビー・エム社内情報系システム(HONE)                                                                                                                                                                                                               
  54.                                                                                                                                                                                                                                                           
  55. (注1):日本アイ・ビー・エムのWWWサーバーで使用されている検索プログラムは,
  56. アプリケーション例としてWWW検索プログラム(応用編)という名前でInfoSearchに
  57. 含まれています。(AIX版のみ)                                                                  
  58.  
  59.  
  60. GTRとは?
  61.  
  62. GTRは,日本語・韓国語・中国語(繁体字)・中国語(簡体字)および英語を高速に検索
  63. する全文検索エンジンです。                                                                                                                                                          
  64.                                                                                                                                                                                                                                                           
  65.  ・どんな言葉でも!                                                                                                                                                                                                                                           
  66.  ・あいまい検索が便利!                                                                                                                                                                                                                                       
  67.  ・検索機能が豊富!                                                                                                                                                                                                                                           
  68.  ・検索も索引作成も高速!                                                                                                                                                                                                                                     
  69.  ・辞書は不要!運用が簡単!  
  70.  
  71. GTRを使うとこんな検索ができます。
  72.  
  73. ■完全一致検索  
  74. 指定された文字列とぴったり一致する文字列を含む文書を探します。動詞でも,
  75. 形容詞でもフレーズでも,その文字列が文書に含まれていれば必ず探せます。                                                                                                                 
  76. 英字('a'~'z', 'A'~'Z')の場合は検索の最小一致単位が単語(英字の連続)になります。                                                                                                                                                                           
  77.  
  78.    「cat」→「application」  検索しません
  79.    「cat」→「I have a cat.」検索します
  80.                                                                                                                                                                                                                                                            
  81. ■あいまい検索                                                                                                                                                                                                                                          
  82. 指定された文字列と文字の並びが似ている文字列を含む文書を探します。                                                                                                                                                                                             
  83.                                                                                                                                                                                                                                                             
  84.    例)
  85.    「アイビーエム」     →「アイ・ビー・エム」  (異表記)
  86.    「在宅起訴」       →「在宅のまま起訴」   (複合語の間に助詞)
  87.    「ソフトウェアメーカー」 →「ソフト開発メーカー」 (複合語)
  88.    「カリフォリニア」    →「カリフォルニア」   (英語のカタカナ異表記)
  89.    「communication」     →「comunications」   (語尾変化)
  90.    「database」       →「data-base」     (異表記)
  91.    「Fuzzy」        →「Fuzy」        (誤表記)
  92. また,どの程度以上似ているものを探すかを検索一致度として指定することができます。
  93.  
  94. ■英字のワイルドカード検索
  95. 英字について,2種類のマスク文字を使ってワイルドカード検索をすることができます。                                                                                                                                                                                
  96. マスク文字1は0文字以上の任意の英字文字列と置き換えられ,マスク文字2は1文字の任意
  97. の英字と置き換えられて検索されます。                                                                                                                                           
  98.                                                                                                                                                                                                                                                             
  99.    例)マスク文字1を'*'マスク文字2を'?'とすると,次のような検索をすることができます。
  100.    「communicat*」      →「communication」「communicated」
  101.    「communicat??」     →「communicated」「communicates」
  102.                                                                                                                                                                                                                                                             
  103. ■半角表現と全角表現の同一視
  104. "A"と"A", "ア"とア"のような同一文字の半角(1Byte)表現と全角(2Byte)表現は常に同一視されます。
  105. ("a"と"A"のような同じ英字の大文字と小文字を区別するかしないかは,検索時に指定できます。)
  106.  
  107. ■範囲指定検索
  108. 各文書の特定の部分だけを対象とした検索ができます。                                                                                                                                                                                                             
  109.  
  110.    例)
  111.    "タイトルだけを対象に"
  112.    "フィールド2を対象に"
  113.  
  114. どのような範囲指定検索を可能にしたいかに応じて,索引作成時に文書内の分割情報を
  115. 索引に入れ込んでおく必要があります。                                                                                                                                             
  116.  
  117. ■文字列どうしの位置関係を使った検索
  118. 指定の文字列がすべて同一ブロックにある文書を探します。                                                                                                                                                                                                         
  119.  
  120.    例)「家庭」と「パソコン」が同一センテンスにある文書を検索                                                                                                                                                                                               
  121.  
  122. どのような位置関係検索を可能にしたいかに応じて,索引作成時に文書内の分割情報を
  123. 索引に入れ込んでおく必要があります。
  124.  
  125. ■AND, OR, NOT の論理演算
  126.     A  AND  B   AとBを両方含む文書を探します。
  127.     A  OR   B   AとBのどちらかを含む文書を探します。
  128.     A  NOT  B   Aを含んでしかもBを含まない文書を探します。
  129.  
  130. ■ランキング検索とファジー演算
  131. 与えられた検索条件に対して合致度の高い文書から順にならべて結果とする検索
  132. (ランキング検索)ができます。
  133. この機能により,大量の検索結果の洪水に押し流されることなく,探していた情報に
  134. より近い可能性の高い文書から順に見ることが可能になり,検索効率が大幅に向上します。
  135. ランキング検索では,「すべてではないがほとんど含んでいる」というような中間的な
  136. 状態を評価できる,より人間の感覚に近いファジー演算機能を使うことができます。
  137.  
  138. ■以前の検索結果と指定文字列とのAND, OR 検索
  139.  
  140. ■文書テキスト中のヒット個所の特定
  141. この機能を使うとヒット個所を強調表示するための情報を入手することができます。                                                                                                                                                                                   
  142. これらGTRの機能すべては,シンプルでわかりやすいAPIを通して使用することができます。
  143.  
  144.  
  145. GTRの特徴
  146.  
  147. 文書検索の従来技術,特に形態素解析によるキーワード抽出に基づく方法と比べると,
  148. GTRの特徴がより明らかになってきます。
  149. 従来,形態素解析(単語辞書・品詞の接続規則を元に文章を品詞に分解する技術)で
  150. 抽出したキーワードと文書をひもづけした索引をあらかじめ作成することにより,
  151. キーワードによる検索を高速に実現する方法が広く使われてきました。
  152. これをここでは,"キーワードとして抽出された言葉でしかひけない"
  153. という意味をこめて「キーワード検索」と呼ぶことにします。
  154. 形態素解析は,機械翻訳や文字認識など多くの分野に欠かせない重要な技術です。
  155. このような高度な日本語処理技術を基盤とした「キーワード検索」は広く世に受け入れられ
  156. 実績をあげてきました。
  157. しかし,同時にいくつかの問題点も指摘されています。
  158.  
  159.  
  160. 従来技術キーワード検索では...
  161.  
  162. ●検索もれ
  163. 入力された文字列が文章に含まれていても,キーワードとして抽出されていなければ,
  164. 検索できません。
  165. 言い換えれば,検索もれの危険性があるということです。キーワード検索の検索もれ
  166. の原因をあげてみました。
  167.  
  168.  ・ 単語辞書の単語不足による解析の誤り
  169.  
  170. どんなにすぐれた形態素解析のアルゴリズムを使用していても入力情報が,誤っていたり
  171. 不足していては解析精度が下がります。
  172. 次々と生まれる新造語,各業界に特有な専門用語,めずらしい人名,地名など,一般的な
  173. 単語辞書に入っていない言葉は意外とたくさんあります。
  174.  
  175.  ・ 複合語の問題
  176.  
  177. 「... 長野市役所 ...」と文中にあったとします。
  178. これが「... | 長野 | 市役所 | ... 」と分解されて複合語処理を経た後に「長野」、
  179. 「市役所」および「長野市役所」がキーワードとなったとします。
  180. この文書は「長野」ではひけますが「長野市」ではひけません。「市役所」ではひけますが
  181. 「役所」ではひけません。
  182. 「... 小田原発  ...」はどうでしょう。
  183. 電車(「小田原 | 発」)?  発電所(「小田 | 原発」)?
  184.  
  185.  ・特定の品詞だけが抽出対象
  186.  
  187. 一般に,キーワードとして抽出されるのは名詞など活用のない自立語だけです。
  188. その場合,「愛と青春の旅立ち」,「砂の惑星」,「プロ野球を10倍楽しむ方法」は
  189. このままでは検索できません。
  190.  
  191. ●検索もれを減らそうとしたら運用が大変
  192. 検索もれを減らすために,運用でできることは単語辞書を充実させてキーワードの
  193. 抽出精度をあげることです。
  194. 抽出結果をチェック,不足単語を辞書に追加,更新された辞書を入力に再抽出,... 
  195. の繰り返し。人手がかかります。 
  196. しかも辞書を更新するたびに,全文書の抽出をくりかえして更新結果を反映しなくては
  197. なりません。 
  198. 自動抽出によらず,人間が明示的に文書にキーワードを割り付ける方法もあります。
  199. これが一番確実ですが,やはり人手がかかります。
  200. キーワード検索は,検索もれさえ気にしなければ,重要な情報だけを取り出して余分な
  201. 情報を捨ててしまうというとてもスマートな方法です。
  202. しかし特に商用データベースの運用者を中心に,検索もれを問題視するシステム管理者が多く,
  203. 抽出結果チェック,辞書保守,再抽出に多くの人件費が費やされているという現状があります。
  204.  
  205.  
  206. GTRで作る検索システムは...
  207.  
  208. このような従来技術を背景にGTRは生まれました。GTRは何も捨てません。
  209. 与えられた文字のすべてを,高速に検索できる形に変換・圧縮して索引とします。
  210. 形態素解析が文書テキストの言語的側面に注目するのに対してGTRでは文書テキストの,
  211. 文字の連鎖としての側面に注目することにより"何も捨てない"ことが可能となりました。                                                                                  
  212. 文章全体のどの部分も検索できる全文検索エンジンGTRを使うと,次のような特徴を持つ
  213. システムを構築することができます。
  214.  
  215. ●完全な全文検索だから簡単
  216. 文章に含まれている文字列であれば,どんな言葉でも必ず検索できます。どんな言葉なら
  217. キーワード抽出されるのかを知っている必要がありませんから単純明快で簡単です。また,
  218. 全文検索をうたっている検索システムでも,ある件数以下にしぼりこまれないと文書表示
  219. ができないものがありますが,GTRにはそのような制限はありません。
  220. 制限が必要な理由の一つとして,"索引でしぼってから最終的には文書データをスキャンする
  221. 方式なので実用的な検索速度を維持するために制限するしかない"ということがあります。
  222. それに対してGTRは,検索時には元の文書テキストを一切参照せずに,索引だけで検索します
  223. ので,安定した検索 速度が実現でき,そのような制限なしで簡単に検索できます。
  224.  
  225. ●似ている文字列を探すあいまい検索が便利
  226. ~ 異表記,誤表記,助詞の挿入などもカバー ~
  227. 文字の並びが似ている文字列を探すあいまい検索はGTRを大きく特徴づける機能です。
  228. 「データベース」と入力して「データ・ベース」を含む文書がみつからないのも,広い意味
  229. では検索もれといえるでしょう。
  230. かといって,膨大な文書テキスト全体にわたって表記を統一するのはなかなか大変です。 
  231. GTRのあいまい検索を使えば異表記,誤表記の多く(すべてとは言いませんが)に対応でき,
  232. そのうえに完全一致だけでは見つけられなかった色々な情報を,きっと手に入れることがで
  233. きるでしょう。
  234.  
  235. ●ノイズはあります。でも見てうなずけるノイズです。
  236. 英字以外は単語ではなく,文字列として検索しますから
  237.   「日本」  →   「... 5月5日本会議場において ...」
  238.   「インド」 →   「... ツインドーム球場 ...」
  239. のようなノイズはあります。
  240. あいまい検索では,意味ではなく文字の並びが似ているものを探しますから
  241.   「ソフトウェアメーカー」  →   「ニットウェアメーカー」
  242. のようなノイズはあります。ただし,見てすぐに理由がわかるノイズです。
  243.  
  244. ●高速検索
  245. 新聞記事1年分規模のデータを対象にしても,ふつうの言葉なら瞬時に検索できます。
  246.  
  247. ●検索機能が豊富
  248. 範囲指定検索,位置関係検索,論理演算,ランキング検索,ファジー演算など,豊富な
  249. 検索機能を提供します。
  250.  
  251. ●運用が簡単
  252. キーワードの確認・辞書保守など人手のかかる作業は必要ありません。
  253. 索引作成プログラムを実行すると自動的に索引が作成される,ただそれだけでしかも高速です。
  254. 必要なのはディスク容量に気を配ることくらいでしょう。
  255. さらに,GTRを使ってアプリケーションを開発する方の観点から見た特徴を述べます。
  256.  
  257. ●要件にあわせて検索速度・索引サイズの傾向を調整可能
  258. 「検索速度優先」なのか「省スペース優先」なのか,要件に合わせて検索速度と索引
  259. サイズの傾向を,標準設定から変更することができます(もちろん「両方優先」という
  260. のはできませんが)。
  261.  
  262. ●既存プログラム,他製品との親和性
  263. GTRは検索機能だけを担当します。文書ライブラリー管理,プレゼンテーション関係など,
  264. 専門外のことは一切行いません。
  265. そのため,既存のプログラムの検索部分だけを置き換える,他の製品と組み合わせて
  266. システムを構築する,などが容易にできます。
  267. パッケージ・ソフトウェア,CD-ROM出版物などへの検索エンジンの組み込み/再販・
  268. OEMにつきましては,こちらの方にご相談ください。
  269.  
  270.  
  271. InfoSearch製品情報
  272. IBM情報検索パック(InfoSearch)製品情報
  273.  
  274. ハイライト
  275.  
  276. ● インターネット,イントラネット,クライアント・サーバー,スタンド・アローン
  277.     等いろいろな環境の検索エンジンとして使用可能
  278. ● 単一WWW上のホーム・ページ全文検索システムの構築が容易
  279. ● 最新のテクノロジーを使用したテキスト文書の高速全文検索
  280. ● 完全一致・あいまい検索等豊富な検索機能を提供
  281. ● "どんな言葉"でも検索可能(フリーワード検索)
  282. ● 辞書を使用しない(文法や語彙に依存しない)高速な索引作成
  283. ● 日本語、英語、韓国語、中国語等の言語の全文検索
  284.  
  285. 機能の概要
  286.  
  287. InfoSearchは大量のテキスト文書を対象に全文検索を高速に行なう
  288. 仕組みを提供する関数群です。
  289. InfoSearchを検索ソリューション・コアとして使うことにより、
  290. いろいろな環境において検索システムを柔軟に構築することができます。
  291. InfoSearchがAPIで提供する主な機能は以下のとおりです。
  292.  
  293.  ・完全一致検索
  294.  ・あいまい検索
  295.  ・英文字に対するワイルドカード検索
  296.  ・範囲指定検索
  297.  ・位置関係検索
  298.  ・ランキング検索
  299.  ・AND, OR, NOT の論理演算およびあいまい論理演算
  300.  ・前回の検索結果との AND, OR 検索
  301.  ・文書中該当個所の特定
  302.  ・索引の新規作成
  303.  ・索引へのデータ追加
  304.  ・索引のマージ
  305.  ・索引から指定文書情報の削除
  306.  ・索引の検証
  307.  ・索引の移動・複写・削除、索引の基本情報取得
  308.  ・日本語、英語、韓国語、中国語(繁体字)、中国語(簡体字)のサポート
  309.  
  310. また同時に提供されるHTML,CGIのサンプルを使ってインターネット,イントラネット上
  311. のWWW全文検索機能をかんたんに作成することが可能です。
  312. カストマイズが必要なお客様にはサンプルを修正して要求に合った検索システムを
  313. 作成することができます。
  314.  
  315. 価格
  316.                                  プログラム番号        価格
  317. InfoSearch for AIX V1.0.0         5754-AFL          98 万円
  318. InfoSearch for OS/2 Warp V1.0.0   5605-884          28 万円
  319.  
  320.  
  321. 前提ハードウェア・ソフトウェア
  322.  
  323. InfoSearch for AIX V1.0
  324. ハードウェア
  325. RISCシステム/6000またはIBM POWER SERIESファミリー
  326. インストレーション用として2MBの空きディスク容量 
  327. インストレーション用として3.5インチ1.44MBのディスケット・ドライブ
  328.  
  329. オペレーティング・システム
  330. AIX RISCシステム/6000 V4.1.3
  331. AIX RISCシステム/6000 V4.1.4
  332.  
  333. アプリケーション・プログラムの開発
  334. IBM C for AIX V3
  335.  
  336. WWW検索用サンプル・プログラムを稼動させる場合
  337. WWWサーバー・プログラムとして以下のいずれか
  338. IBM Internet Connection Server for AIX V1.0J
  339. IBM Internet Connection Secure Server for AIX V1.1J
  340. NCSA httpd V1.4.2
  341. CERN httpd V3.0
  342.  
  343. InfoSearch for OS/2 Warp V1.0
  344.  
  345. ハードウェア
  346. IBM OS/2 Warp V3.0 が稼動可能なパーソナル・コンピューター 
  347. インストレーション用として2MBの空きディスク容量 
  348. インストレーション用として3.5インチ1.44MBのディスケット・ドライブ
  349.  
  350. オペレーティング・システム
  351. IBM OS/2 Warp V3.0J以上
  352.  
  353. アプリケーション・プログラムの開発
  354. 以下のいずれか
  355. IBM C Set ++ for OS/2 J2.1
  356. VisualAge C++ for OS/2 J3.0
  357.  
  358. WWW検索用サンプル・プログラムを稼動させる場合
  359. WWWサーバー・プログラムとして以下のいずれか
  360. IBM Internet Connection Server for OS/2 Warp V1.0J
  361. IBM Internet Connection Secure Server for OS/2 Warp V1.1J
  362.  
  363. パッケージング
  364.  
  365. IBM 情報検索パック for AIX V 1.0
  366.   3.5 インチ・ディスケット
  367.   ライセンス証書
  368.   プログラムご使用条件 (IPLA)
  369.   ライセンス情報
  370.   IBM 情報検索パック 解説書  (SB88-0449)
  371.  
  372. IBM 情報検索パック for OS/2 Warp V 1.0
  373.   3.5 インチ・ディスケット
  374.   ライセンス証書
  375.   プログラムご使用条件 (IPLA)
  376.   ライセンス情報
  377.   IBM 情報検索パック 解説書  (SB88-0449)
  378.  
  379.  
  380. 当お試し版のインストール方法/使用方法については
  381. 日本アイ・ビー・エムのホームページ
  382.   http://www.ibm.co.jp/
  383. をご覧ください。
  384.  
  385.  
  386. その他
  387.  * IBM, AIX, RISC システム /6000, OS/2 は米国およびその他の国における
  388.    IBM の商標です。
  389. ** Microsoft は米国マイクロソフト社の商標です。
  390.