Der HTML-Parser wandelt den Text in die UTF-8-Codepage um. Er führt eine HTML-Tagerkennung durch und klassifiziert die Tags in Tagklassen:
Er erkennt alle Sonderzeichendefinitionen (Entity-Definitionen), die in HTML 4 definiert sind, wie "ä" (ä), und löst sie in die entsprechenden Codepunkte in UTF-8 auf.
Er erkennt Meta-Tags und analysiert den Meta-Tag-Text.
Das folgende Beispiel zeigt ein HTML-Dokument:
<HTML> <HEAD> <META NAME="year" CONTENT="2002"> <TITLE> The Firm </TITLE> </HEAD> <BODY> <H1>Synopsis</H1>; <H1>Prologue</H1>;: : </BODY>
Das folgende Beispiel zeigt ein HTML-Dokumentmodell:
<?xml version="1.0"?> <HTMLModel> <HTMLFieldDefinition name="subtitle" tag="title" exclude="YES" /> <HTMLFieldDefinition - Dies ist der Anfang eines Textfelds name="header1" tag="h1" exclude="YES" /> - Dies ist das Ende des Textfelds <HTMLAttributeDefinition - Dies ist der Anfang des Dokument- name="year" attributs tag="meta" meta-qualifier="year" type="NUMBER" /> - Dies ist das Ende des Dokument- attributs </HTMLModel>
Die erste Zeile, <?xml version="1.0"?>, gibt an, dass das Dokumentmodell mit XML-Tags geschrieben ist. Beachten Sie, dass dieses Modell nicht für Dokumente im XML-Format geschrieben ist.
Jedes Feld wird innerhalb eines Tags HTMLFieldDefinition oder HTMLAttributeDefinition definiert, das Elementparameter enthält.
Alle Textfelddefinitionen müssen im Tag <HTMLModel> enthalten sein.