IBM Books
(C) IBM Corp. 2000

Net Search Extender 管理およびユーザーズ・ガイド


文書モデルの例

索引を付ける文書フォーマットごとに 1 つの文書モデルを定義することが必要です。 以下は、プレーン・テキスト構造化文書の簡単な文書モデルです。 この例の中の GPP は General Purpose Parser (汎用パーサー) の略です。

<?xml version="1.0"?>
<GPPModel>                  - here begins the GPP document model
 
  <GPPFieldDefinition       - here begins a field definition
  name="Head"               - the name you assign to this field
   start="[head]"           - the boundary string at the beginning of the field
  end="[/head]"             - the boundary string at the end of the field
 exclude="YES" /> 
 
  <GPPFieldDefinition       - here begins the next field definition
  name="Abstract"
  start="[abstract]"
  end="[/abstract]"
  exclude="NO" />
:
:
</GPPModel> 

文書モデルは、付録 G, 文書モデルの参照情報に定義されているタグを使用して XML 言語で指定します。 文書モデルはテキスト・フィールド定義と属性定義からなっています。 上記の例に示されているのは、GPPFieldDefinition エレメントに定義されている テキスト・フィールド定義のみです。 同じようにして、GPPAttributeDefinition を使用して文書属性を定義できます。

1 行目の <?xml version="1.0"?> は、文書モデルが XML タグを使用して書かれていることを示しています。 テキスト・フィールド定義ごとに、フィールド定義の開始 (start) と終了 (end) を表す境界ストリングをソース・ドキュメントに指定します。 したがって、ある文書に [head]、何かのテキスト、[/head] という順序で続く文字シーケンスが含まれる場合は、 それらの境界ストリングの間のテキストが head という名前を割り当てられたテキスト・フィールドの内容であると解釈されます。

各フィールド定義にはフィールド名を割り当てます。 このフィールド名を使うことにより、照会はテキスト・フィールドの内容の検索を制限できます。 フィールド名は、決まった名前を指定することも、またはある規則によって 構造単位の内容から取った名前にすることもできます。 たとえば、XML エンティティーのタグ名や XML 属性の名前などを そのようにして決めることができます。


[ ページのトップ | 前ページ | 次ページ | 目次 | 索引 ]