Dokumentmodelle
Ein Dokumentmodell steuert in erster Linie, welche Teile der Struktur eines Dokuments
indexiert werden müssen und wie die Indexierung erfolgt. Es dient folgenden Zwecken:
- Identifizieren von Textfeldern, die im Quellendokument zu unterscheiden sind
- Bestimmen des Typs eines solches Textfeldes
- Zuordnen eines Feldnamens zu einem Textfeld
Wenn das Dokumentmodell Text als zu einem Textfeld gehörig definiert, wird der Text
als Teil des Textinhalts des Dokuments betrachtet, so dass Begriffe extrahiert und im
Index gespeichert werden.
Die Elemente eines Dokumentmodells variieren je nachdem, welcher Parser für das
betreffende Dokumentformat verwendet wird:
- Für das HTML-Format verwendet ein Dokumentmodell die HTML-Tagnamen, um zu definieren,
welche HTML-Tags zu indexieren sind und wie die Meta-Tag-Informationen zu behandeln sind.
- Für das XML-Format gibt es keinen vordefinierten Satz von Tags, so dass ein
Dokumentmodell zunächst die relevanten Tags definieren muss. XML-Elemente des gleichen
Namens können auch durch die Umgebung der anderen Elemente, in die sie eingebettet sind,
unterschieden werden.
- Für das GPP-Format (GPP - General Purpose Parser) interagiert das Dokumentmodell noch
intensiver mit dem Parser, weil es die Grenzen der Textfelder festlegen muss. In diesem
Format muss die Felddefinition Zeichenfolgen angeben, die eine Erkennung der Grenzen von
Feldern ermöglichen.
- Für Outside In-Formate verwendet ein Dokumentmodell mit den HTML-Tagnamen vergleichbare Tags, um zu
definieren, welche Tags zu indexieren und wie die Meta-Tag-Informationen zu bearbeiten
sind. Beachten Sie hierbei, dass das Outside In-Filterformat auch als INSO-Format bezeichnet
wird.
Informationen hierzu finden Sie in den jeweiligen Abschnitten "Definieren eines
Dokumentmodells".
Informationen zur Syntax von Dokumentmodellen in Form einer Dokumenttypdefinition (DTD
- Document Type Definition) sowie zu Begrenzungen für Textfelder finden Sie in
Anhang G. Dokumentmodellreferenz.