IBM Books
(C) IBM Corp. 2000

Net Search Extender 管理およびユーザーズ・ガイド


HTML 文書の場合の文書モデルの定義

HTML パーサーはテキストを UTF-8 コード・ページに変換します。その結果、HTML タグを認識し、タグ・クラスに分類します。

このパーサーは、HTML 4 で定義されたすべての文字エンティティー参照 (例:"ä" (ä) など) を認識し、UTF-8 での対応するコード・ポイントに分解します。

メタ・タグを認識し、メタ・タグ・テキストを解析します。

以下に HTML 文書の例を示します。

<HTML>
<HEAD>
<META NAME="year" CONTENT="2002">
<TITLE> The Firm </TITLE>
</HEAD>
<BODY>
<H1>Synopsis</H1>;
 
 
<H1>Prologue</H1>;:
:
</BODY>

以下に HTML 文書モデルの例を示します。

<?xml version="1.0"?>
<HTMLModel>
 
 <HTMLFieldDefinition
 name="subtitle"
 tag="title"
 exclude="YES" /> 
 
 <HTMLFieldDefinition                 - This is the start of text field
 name="header1"
 tag="h1"
 exclude="YES" />                     - This is the end of the text field
 
 <HTMLAttributeDefinition             - This is the start of the document
 name="year"                                   attribute
 tag="meta"
 meta-qualifier="year"
 type="NUMBER" />                     - This is the end of the document
                                            attribute
 </HTMLModel>

1 行目の <?xml version="1.0"?> は、文書モデルが XML タグを使用して書かれていることを示しています。このモデルは XML フォーマット文書用には書かれていないことに注意してください。

各フィールドは、エレメント・パラメーターを含む HTMLFieldDefinition タグまたは HTMLAttributeDefinition タグ内で定義されます。

すべてのテキスト・フィールド定義は、<HTMLModel> タグ内に含まれる必要があります。


[ ページのトップ | 前ページ | 次ページ | 目次 | 索引 ]