Beispiel für ein Dokumentmodell

Sie müssen für jedes Dokumentformat, das Sie indexieren möchten, ein Dokumentmodell definieren. Im Folgenden ist ein einfaches Dokumentmodell für strukturierte reine Textdokumente aufgeführt. Beachten Sie, dass im unten stehenden Beispiel GPP die Abkürzung für 'General Purpose Parser' ist.

<?xml version="1.0"?>
<GPPModel>                  - Hier beginnt das GPP-Dokumentmodell

  <GPPFieldDefinition       - Hier beginnt eine Felddefinition
  name="Head"               - Der Name, den Sie diesem Feld zuordnen
   start="[head]"           - Die Begrenzungszeichenfolge am Anfang des Felds
  end="[/head]"             - Die Begrenzungszeichenfolge am Ende des Felds
 exclude="YES" /> 

  <GPPFieldDefinition       - Hier beginnt die nächste Felddefinition
  name="Abstract"
  start="[abstract]"
  end="[/abstract]" 
  exclude="NO" />
:
:
</GPPModel>                             

Dokumentmodelle werden in der XML-Sprache mit Tags angegeben, die in Anhang G. Dokumentmodellreferenz definiert werden. Ein Dokumentmodell besteht aus Textfeld- und Attributdefinitionen. Dieses Beispiel demonstriert nur Textfelddefinitionen, die in GPPFieldDefinition-Elementen definiert werden. Ähnlich können Sie auch GPPAttributeDefinition-Elemente zum Definieren von Dokumentattributen verwenden.

Die erste Zeile des Beispiels, <?xml version="1.0"?>, gibt an, dass das Dokumentmodell mit XML-Tags geschrieben ist. Jede Textfelddefinition gibt Begrenzungszeichenfolgen an, um Start (start) und Ende (end) der Felddefinition im Quellendokument zu kennzeichnen. Wenn also Textelemente zwischen der Begrenzungszeichenfolge [head] und der Begrenzungszeichenfolge [/head] stehen, wird dieser Text als Inhalt des Textfelds mit dem Namen head erkannt.

Jeder Felddefinition ordnen Sie einen Feldnamen zu. Durch diesen Feldnamen kann eine Abfrage die Suche auf den Inhalt eines Textfeldes beschränken. Der Name kann entweder festgelegt sein oder durch eine Regel vom Inhalt der strukturellen Einheit abgeleitet werden. Ein solcher Name kann z. B. der Tagname für eine XML-Entität oder der Name eines XML-Attributs sein.