(C) IBM Corp. 2003
DB2 Net Search Extender Verwaltung und Programmierung
Ein Dokumentmodell steuert in erster Linie, welche Teile der Struktur eines
Dokuments indexiert werden müssen und wie die Indexierung erfolgt. Es
dient folgenden Zwecken:
- Identifizieren von Textfeldern, die im Quellendokument zu unterscheiden
sind
- Bestimmen des Typs eines solches Textfeldes
- Zuordnen eines Feldnamens zu einem Textfeld
Wenn das Dokumentmodell Text als zu einem Textfeld gehörig definiert, wird
der Text als Teil des Textinhalts des Dokuments betrachtet, so dass Begriffe
extrahiert und im Index gespeichert werden.
Die Elemente eines Dokumentmodells variieren je nachdem, welcher Parser für
das betreffende Dokumentformat verwendet wird:
- Für das HTML-Format verwendet ein Dokumentmodell die HTML-Tagnamen, um zu
definieren, welche HTML-Tags zu indexieren sind und wie die
Meta-Tag-Informationen zu behandeln sind.
- Für das XML-Format gibt es keinen vordefinierten Satz von Tags, so dass
ein Dokumentmodell zunächst die relevanten Tags definieren muss.
XML-Elemente des gleichen Namens können auch durch die Umgebung der anderen
Elemente, in die sie eingebettet sind, unterschieden werden.
- Für das GPP-Format (GPP - General Purpose Parser) interagiert das
Dokumentmodell noch intensiver mit dem Parser, weil es die Grenzen der
Textfelder festlegen muss. In diesem Format muss die Felddefinition
Zeichenfolgen angeben, die eine Erkennung der Grenzen von Feldern
ermöglichen.
- Für Outside-In-Formate verwendet ein Dokumentmodell mit den
HTML-Tagnamen vergleichbare Tags, um zu definieren, welche Tags zu indexieren
und wie die Meta-Tag-Informationen zu behandeln sind. Beachten Sie
hierbei, dass das Outside-In-Filterformat auch als INSO-Format bezeichnet
wird.
Informationen finden Sie in den jeweiligen Abschnitten "Definieren eines
Dokumentmodells".
Informationen zur Syntax von Dokumentmodellen in Form einer
Dokumenttypdefinition (DTD - Document Type Definition) sowie zu Begrenzungen
von Textfeldern finden Sie in Anhang G, Dokumentmodellreferenz.
[ Seitenanfang | Vorherige Seite | Nächste Seite | Inhaltsverzeichnis | Index ]