Vous devez définir un modèle de document pour chaque format de document que vous souhaitez indexer. Voici un modèle de document simple pour les documents en texte clair structurés. Notez que, dans l'exemple, GPP signifie General Purpose Parser.
<?xml version="1.0"?> <GPPModel> - Début du modèle de document GPP <GPPFieldDefinition - Début de définition de la zone name="Head" - Nom que vous donnez à la zone start="[head]" - Chaîne de limite au début de la zone end="[/head]" - Chaîne de limite à la fin de la zone exclude="YES" /> <GPPFieldDefinition - Début de définition de la zone name="Abstract" start="[abstract]" end="[/abstract]" exclude="NO" /> : : </GPPModel>
Les modèles de document sont écrits en langage XML, qui utilise des balises comme défini dans l'Annexe G, Référence du modèle de document. Un modèle de document est composé de définitions de zones de texte et d'attributs. Cet exemple illustre uniquement les définitions de zones de texte spécifiées dans les éléments GPPFieldDefinition. De la même façon, vous pouvez utiliser GPPAttributeDefinition pour définir des attributs de document.
Dans l'exemple, la première ligne, <?xml version="1.0"?>, indique que le modèle de document est écrit à l'aide de balises XML. Chaque définition de zone de texte spécifie les chaînes de limite pour identifier le début et la fin de la définition de la zone dans le document source. Ainsi, chaque fois qu'un document contient la séquence de caractères [head] suivi d'une partie de texte puis de la séquence de caractères [/head], le texte compris entre les chaînes de limite est considéré comme étant le contenu de la zone de texte identifiée par le nom head.
Vous affectez un nom de zone à chaque définition de zone. Ce nom constitue le moyen par lequel une requête peut limiter la recherche au contenu d'une zone de texte. Il peut être fixe ou provenir d'une règle définie à partir du contenu de l'unité structurelle. Dans ce cas, ce pourrait être, par exemple, le nom de la balise pour une entité XML, ou le nom d'un attribut XML.