DB2 Net Search Extender muss das Format (bzw. den Typ) von Textdokumenten kennen, die Sie durchsuchen möchten. Diese Information wird zur Indexierung von Textdokumenten benötigt.
DB2 Net Search Extender unterstützt die folgenden Dokumentformate:
Für die Dokumentformate HTML, XML, GPP und die Outside-In-Filterformate kann das Suchen auf bestimmte Teile eines Dokuments eingeschränkt werden. In Kapitel 9, Arbeiten mit strukturierten Dokumenten wird die Definition von Dokumentmodellen und die Arbeit mit ihnen erläutert.
Wenn für nicht unterstützte Dokumentformate keine Outside-In-Filter eingesetzt werden können, ist es möglich, für diese eine benutzerdefinierte Funktion (UDF) zu schreiben. Diese UDF muss zum Zeitpunkt der Indexerstellung angegeben werden und dient zur Umsetzung der Daten von dem nicht unterstützten Format in ein unterstütztes Format.
Weitere Informationen finden Sie unter CREATE INDEX.
Dokumente können indexiert werden, wenn sie in einer der unterstützten codierten Zeichensatzkennungen (CCSIDs = Coded Character Set Identifiers) vorliegen. Diese werden auch als Codepages bezeichnet. Eine Liste dieser Codepages finden Sie in Anhang D, Unterstützte IDs für codierte Zeichensätze (CCSIDs).
Verwenden Sie den folgenden DB2-Befehl, um die Datenbankcodepage zu überprüfen:
db2 GET DB CFG for <dbname>
Aus Gründen der Einheitlichkeit wandelt DB2 normalerweise die Codepage eines Dokuments in die Codepage der Datenbank um. Wenn Sie jedoch Daten in einer DB2-Datenbank in einer Spalte mit einem Binärdatentyp wie BLOB, FOR BIT DATA oder DATALINK speichern, wandelt DB2 die Daten nicht um, und die Dokumente behalten ihre ursprünglichen IDs für codierte Zeichensätze (CCSIDs).
Beachten Sie, dass bei zwei unterschiedlichen Codepages Probleme auftreten können, wenn ein Textindex erstellt oder eine Suche durchgeführt wird. Weitere Informationen hierzu finden Sie im Abschnitt Erstellen eines Textindexes für Binärdatentypen.