IBM Books
(C) IBM Corp. 2000, 2003.

Net Search Extender

管理和用户指南


文档格式和受支持的代码页

DB2 Net Search Extender 需要知道您打算搜索的文本文档的格式(或类型)。此信息对于为文本文档建立索引是必需的。

DB2 Net Search Extender 支持下列文档格式:

TEXT
明文(例如,平面 ASCII)

HTML
超文本标记语言

XML
扩展标记语言

GPP
通用格式(带有用户定义标记的平面文本)

Outside-In(INSO)
过滤软件以便从 PDF 和其它常见文本格式化工具(例如,Microsoft Word)中抽取文本内容。有关进一步的信息,参见Outside-In 过滤软件

对于文档格式 HTML、XML、GPP 和 Outside-In 过滤器格式,可以限制只搜索文档的特定部分。Chapter 9, 使用结构化文档说明如何定义和使用文档模型。

其中 Outside-In 过滤器不能用于不受支持的文档格式,您可以编写“用户定义函数”(UDF)。必须在创建索引时指定此 UDF 并将数据从不受支持的格式转换为受支持的格式。

有关更多信息,参见CREATE INDEX

如果文档采用其中一种受支持的“编码字符集标识符”(CCSID),则可以对文档建立索引。这些 CCSID 也称为代码页。有关这些代码页的列表,参见附录 D, 受支持的 CCSID

要检查数据库代码页,使用以下 DB2 命令:

db2 GET DB CFG for <dbname>

为了保持一致,DB2 通常将文档的代码页转换为数据库的代码页。但是,当将 DB2 数据库中的数据存储在具有二进制数据类型(例如,BLOBFOR BIT DATAdatalink value)的列中时,DB2 不会转换数据,且文档将保持其原始 CCSID。

注意,如果具有两种不同的代码页,则在创建文本索引或进行搜索时可能会导致问题。有关进一步的信息,参见对二进制数据类型创建文本索引


[ 页的顶部 | 上一页 | 下一页 | 目录 | 索引 ]