IBM Books
(C) IBM Corp. 2000

DB2 Net Search Extender Guía de administración y del usuario

Qué sucede cuando se indexa un documento GPP

El analizador de finalidad general explora el documento buscando una de las series de límite de inicio. Cuando encuentra una serie de límite, analiza el campo siguiente hasta que encuentra la serie de límite de final correspondiente.

El contenido del campo se indexa según el término de la definición, es decir, como un campo de texto o atributo de documento. Si el campo de texto y atributo de documento tienen las mismas series de límite de inicio y de final, el contenido del campo se indexa como campo de texto y como atributo de documento.

No se pueden anidar los campos; si se encuentra una nueva serie de límite de inicio en un campo antes de alcanzar la serie de límite de final, la nueva serie de límite de inicio se interpreta como texto normal.

Si no se encuentra ninguna serie de límite de final, se asume que el campo se extiende hasta el final del documento y se comunica un código de razón adecuado.

Si no se especifica ninguna serie de límite de final en el modelo de documento, la nueva serie de límite de inicio señala el final del campo anterior.


Definición de un modelo de documento para documentos HTML

El analizador HTML convierte el texto a la página de códigos UTF-8. Realiza el reconocimiento de los identificadores HTML y los clasifica en clases de identificadores:

Reconoce todas las referencias de entidades de caracteres definidas en HTML 4, como "ä" (ä) y las resuelve en los elementos de código correspondientes en UTF-8.

Reconoce los metaidentificadores y analiza el texto de los mismos.

A continuación se muestra un ejemplo de un documento HTML:

<HTML>
<HEAD>
<META NAME="year" CONTENT="2002">
<TITLE> La Tapadera</TITLE>
</HEAD>
<BODY>
<H1>Sinopsis</H1>;
 
 
<H1>Prólogo</H1>;:
:
</BODY>

A continuación se muestra un ejemplo de un modelo de documento HTML:

<?xml version="1.0"?>
<HTMLModel>
 
 <HTMLFieldDefinition
 name="subtitle"
 tag="title" 
 exclude="YES" /> 
 
 <HTMLFieldDefinition                 - Éste es el inicio del campo de texto
 name="header1"
 tag="h1"
 exclude="YES" />                     - Éste es el final del campo de texto
 
 <HTMLAttributeDefinition             - Éste es el inicio del atributo de
 name="year"                                   documento
 tag="meta"
 meta-qualifier="year"
 type="NUMBER" />                     - Éste es el final del atributo de
                                           documento
 </HTMLModel>

La primera línea, <?xml version="1.0"?>, especifica que el modelo de documento está escrito con identificadores XML. Tenga en cuenta que este modelo no está escrito para documentos en formato XML.

Cada campo se define dentro de un identificador HTMLFieldDefinition o HTMLAttributeDefinition, que contiene parámetros de elemento.

Todas las definiciones de texto deben estar contenidas en el identificador <HTMLModel>.


[ Principio de página | Página anterior | Página siguiente | Contenido | Índice ]