HTML パーサーはテキストを UTF-8 コード・ページに変換します。その結果、HTML タグを認識し、タグ・クラスに分類します。
このパーサーは、HTML 4 で定義されたすべての文字エンティティー参照 (例:"ä" (ä) など) を認識し、UTF-8 での対応するコード・ポイントに分解します。
メタ・タグを認識し、メタ・タグ・テキストを解析します。
以下に HTML 文書の例を示します。
<HTML> <HEAD> <META NAME="year" CONTENT="2002"> <TITLE> The Firm </TITLE> </HEAD> <BODY> <H1>Synopsis</H1>; <H1>Prologue</H1>;: : </BODY>
以下に HTML 文書モデルの例を示します。
<?xml version="1.0"?> <HTMLModel> <HTMLFieldDefinition name="subtitle" tag="title" exclude="YES" /> <HTMLFieldDefinition - This is the start of text field name="header1" tag="h1" exclude="YES" /> - This is the end of the text field <HTMLAttributeDefinition - This is the start of the document name="year" attribute tag="meta" meta-qualifier="year" type="NUMBER" /> - This is the end of the document attribute </HTMLModel>
1 行目の <?xml version="1.0"?> は、文書モデルが XML タグを使用して書かれていることを示しています。このモデルは XML フォーマット文書用には書かれていないことに注意してください。
各フィールドは、エレメント・パラメーターを含む HTMLFieldDefinition タグまたは HTMLAttributeDefinition タグ内で定義されます。
すべてのテキスト・フィールド定義は、<HTMLModel> タグ内に含まれる必要があります。