索引を付ける文書フォーマットごとに 1 つの文書モデルを定義することが必要です。 以下は、プレーン・テキスト構造化文書の簡単な文書モデルです。 この例の中の GPP は General Purpose Parser (汎用パーサー) の略です。
<?xml version="1.0"?> <GPPModel> - here begins the GPP document model <GPPFieldDefinition - here begins a field definition name="Head" - the name you assign to this field start="[head]" - the boundary string at the beginning of the field end="[/head]" - the boundary string at the end of the field exclude="YES" /> <GPPFieldDefinition - here begins the next field definition name="Abstract" start="[abstract]" end="[/abstract]" exclude="NO" /> : : </GPPModel>
文書モデルは、付録 G, 文書モデルの参照情報に定義されているタグを使用して XML 言語で指定します。 文書モデルはテキスト・フィールド定義と属性定義からなっています。 上記の例に示されているのは、GPPFieldDefinition エレメントに定義されている テキスト・フィールド定義のみです。 同じようにして、GPPAttributeDefinition を使用して文書属性を定義できます。
1 行目の <?xml version="1.0"?> は、文書モデルが XML タグを使用して書かれていることを示しています。 テキスト・フィールド定義ごとに、フィールド定義の開始 (start) と終了 (end) を表す境界ストリングをソース・ドキュメントに指定します。 したがって、ある文書に [head]、何かのテキスト、[/head] という順序で続く文字シーケンスが含まれる場合は、 それらの境界ストリングの間のテキストが head という名前を割り当てられたテキスト・フィールドの内容であると解釈されます。
各フィールド定義にはフィールド名を割り当てます。 このフィールド名を使うことにより、照会はテキスト・フィールドの内容の検索を制限できます。 フィールド名は、決まった名前を指定することも、またはある規則によって 構造単位の内容から取った名前にすることもできます。 たとえば、XML エンティティーのタグ名や XML 属性の名前などを そのようにして決めることができます。