(C) IBM Corp. 2000
Net Search Extender 管理およびユーザーズ・ガイド
文書モデルは、主として文書の構造のどの部分に索引を付ける必要があるか、どのように索引を付けるかを制御します。その目的は次のとおりです。
- ソース・ドキュメントで区別する必要があるテキスト・フィールドを識別する
- 上記のようなテキスト・フィールドのタイプを判別する
- フィールド名をテキスト・フィールドに割り当てる
文書モデルがテキストをテキスト・フィールドに属していると識別すると、テキストは文書のテキストの内容の一部であると見なされ、用語が抽出されて索引に保管されます。
文書モデルのエレメントは、その文書フォーマットに使用されたパーサーによって異なります。
- HTML フォーマットの場合、文書モデルは、HTML タグ名を使用して、どのタグに索引を付けるべきか、メタタグ情報をどのように処理するかを定義します。
- XML フォーマットの場合、定義済みの一連のタグは存在しないので、文書モデルはまず、どのタグが目的のタグであるかを定義する必要があります。同じ名前の XML エレメントも、他のどのエレメントに組み込まれているかに基づいて区別できます。
- GPP (汎用パーサー) フォーマットの場合、文書モデルはテキスト・フィールドの境界を判別する必要があるために、より深くパーサーと相互作用します。ここではフィールド定義が、フィールドの境界を検出するためにストリングを指定する必要があります。
- Outside-In フォーマットの場合、
文書モデルは、HTML タグ名に類似したタグを使用して、
どのタグに索引を付けるべきか、メタタグ情報をどのように処理するかを定義します。
Outside-In フィルター・フォーマットを INSO ということもあるので注意してください。
詳細に関しては『文書モデルの定義』のセクションを参照してください。
文書タイプ定義 (DTD) の形式での文書モデルの構文、およびテキスト・フィールドの制限については、付録 G, 文書モデルの参照情報を参照してください。
[ ページのトップ | 前ページ | 次ページ | 目次 | 索引 ]