文档格式和受支持的代码页

DB2 Net Search Extender 需要知道您打算搜索的文本文档的格式(或类型)。此信息对于为文本文档建立索引是必需的。

DB2 Net Search Extender 支持下列文档格式:

TEXT
纯文本(例如,平面 ASCII)
HTML
超文本标记语言
XML
扩展标记语言
GPP
通用格式(带有用户定义的标记的平面文本)
Outside In(INSO)
过滤软件以便从 PDF 和其它常见文本格式化工具(例如,Microsoft Word)中抽取文本内容。有关进一步的信息,请参阅Outside In 过滤软件

对于文档格式 HTML、XML、GPP 和 Outside In 过滤器格式,可以限制只搜索文档的特定部分。使用结构化文档说明如何定义和使用文档模型。

其中 Outside In 过滤器不能用于不受支持的文档格式,您可以编写“用户定义的函数”(UDF)。必须在创建索引时指定此 UDF 并将数据从不受支持的格式转换为受支持的格式。

有关更多信息,请参阅CREATE INDEX

如果文档采用其中一种受支持的“编码字符集标识”(CCSID),则可以对文档建立索引。这些 CCSID 也称为代码页。有关这些代码页的列表,请参阅附录D. 受支持的 CCSID

要检查数据库代码页,使用以下 DB2 命令:

db2 GET DB CFG for <dbname>

为了保持一致,DB2 通常将文档的代码页转换为数据库的代码页。但是,当将 DB2 数据库中的数据存储在具有二进制数据类型(例如,BLOBFOR BIT DATAdatalink value)的列中时,DB2 不会转换数据,且文档将保持其原始 CCSID。

注意,如果具有两种不同的代码页,则在创建文本索引或进行搜索时可能会导致问题。有关进一步的信息,请参阅对二进制数据类型创建文本索引