IBM Books
(C) IBM Corp. 2000

Net Search Extender 管理およびユーザーズ・ガイド


文書フォーマットおよびサポートされるコード・ページ

DB2 Net Search Extender は、検索対象のテキスト文書のフォーマット (またはタイプ) を知る必要があります。 この情報は、テキスト文書の索引作成時に必要になります。

DB2 Net Search Extender は、以下の文書フォーマットをサポートします。

TEXT
プレーン・テキスト (例:フラット ASCII)

HTML
ハイパーテキスト・マークアップ言語

XML
拡張マークアップ言語

GPP
汎用パーサー・フォーマット (ユーザー定義タグ付きのフラット・テキスト)

Outside-In (INSO)
PDF や他の一般的なテキスト・フォーマット・ツール (Microsoft Word など) からテキスト内容を抽出するためのフィルター・ソフトウェア。 詳細については Outside-In フィルター・ソフトウェアを参照してください。

文書フォーマット HTML、XML、GPP、 および Outside-In フィルター・フォーマットの場合、 検索は文書の特定部分に制限することができます。 構造化文書を使用する作業は、文書モデルを定義し、処理する方法について説明しています。

サポートされていない文書フォーマットに対して Outside-In フィルターが使用できない場合、 ユーザー定義関数 (UDF) を作成できます。 この UDF は索引作成時に指定する必要があり、これを使用して、 サポートされていないフォーマットからサポートされているフォーマットにデータを変換します。

詳細については、CREATE INDEXを参照してください。

サポートされているコード化文字セット ID (CCSID) の文書である場合、 その文書は索引付けできます。 CCSIDは、コード・ページとも呼ばれます。 サポートされるコード・ページのリストは 付録 D, サポートされている CCSIDを参照してください。

データベースのコード・ページをチェックするには、次の DB2 コマンドを使用してください。

db2 GET DB CFG for <dbname>

整合性のために、DB2 は通常、 文書のコード・ページをデータベースのコード・ページに変換します。 ただし、DB2 データベース内のデータを、BLOBFOR BIT DATA、 または datalink value などのバイナリー・データ・タイプの列に保管する場合には、 DB2 はデータを変換しないので、文書は元の CCSID を保持します。

2 つの異なるコード・ページを使用すると、 テキスト索引の作成時または検索時に問題が発生する原因になる可能性があります。 詳しくは、バイナリー・データ・タイプのテキスト索引の作成を参照してください。


[ ページのトップ | 前ページ | 次ページ | 目次 | 索引 ]