El analizador HTML convierte el texto a la página de códigos UTF-8. Realiza el reconocimiento de los identificadores HTML y los clasifica en clases de identificadores:
Reconoce todas las referencias de entidades de caracteres definidas en HTML 4, como "ä" (ä) y las resuelve en los elementos de código correspondientes en UTF-8.
Reconoce los metaidentificadores y analiza el texto de los mismos.
A continuación se muestra un ejemplo de un documento HTML:
<HTML> <HEAD> <META NAME="year" CONTENT="2002"> <TITLE> La Tapadera</TITLE> </HEAD> <BODY> <H1>Sinopsis</H1>; <H1>Prólogo</H1>;: : </BODY>
A continuación se muestra un ejemplo de un modelo de documento HTML:
<?xml version="1.0"?> <HTMLModel> <HTMLFieldDefinition name="subtitle" tag="title" exclude="YES" /> <HTMLFieldDefinition - Éste es el inicio del campo de texto name="header1" tag="h1" exclude="YES" /> - Éste es el final del campo de texto <HTMLAttributeDefinition - Éste es el inicio del atributo de name="year" documento tag="meta" meta-qualifier="year" type="NUMBER" /> - Éste es el final del atributo de documento </HTMLModel>
La primera línea, <?xml version="1.0"?>, especifica que el modelo de documento está escrito con identificadores XML. Tenga en cuenta que este modelo no está escrito para documentos en formato XML.
Cada campo se define dentro de un identificador HTMLFieldDefinition o HTMLAttributeDefinition, que contiene parámetros de elemento.
Todas las definiciones de texto deben estar contenidas en el identificador <HTMLModel>.