L'analyseur syntaxique HTML convertit le texte en page de codes UTF-8. Il effectue une reconnaissance des balises HTML et les classifie en classes de balise :
Il reconnaît toutes les références d'entité de caractère définies en HTML 4, par exemple "ä" (ä) et les résout en points de code correspondants de la page de codes UTF-8.
Il reconnaît les balises META et analyse le texte de ces balises.
Exemple de document HTML :
<HTML> <HEAD> <META NAME="year" CONTENT="2002"> <TITLE> The Firm </TITLE> </HEAD> <BODY> <H1>Synopsis</H1>; <H1>Prologue</H1>;: : </BODY>
Exemple de modèle de document HTML :
<?xml version="1.0"?> <HTMLModel> <HTMLFieldDefinition name="subtitle" tag="title" exclude="YES" /> <HTMLFieldDefinition - Début d'une zone de texte name="header1" tag="h1" exclude="YES" /> - Fin de la zone de texte <HTMLAttributeDefinition - Début de l'attribut de name="year" document tag="meta" meta-qualifier="year" type="NUMBER" /> - Fin de l'attribut de document </HTMLModel>
La première ligne, <?xml version="1.0"?>, indique que le modèle de document est écrit à l'aide de balises XML. Notez que ce modèle n'est pas écrit pour les documents au format XML.
Chaque zone est définie dans une balise HTMLFieldDefinition ou HTMLAttributeDefinition qui contient les paramètres des éléments.
Toutes les définitions de zone de texte doivent être contenues dans la balise <HTMLModel>.