IBM Books
(C) IBM Corp. 2000

DB2 Extension Net Search - Guide d'administration et d'utilisation


Formats de document et pages de codes prises en charge

DB2 Extension Net Search doit connaître le format (ou type) des documents texte à rechercher. Ces informations sont nécessaires pour l'indexation des documents texte.

DB2 Extension Net Search prend en charge les formats de documents suivants :

TEXT
Texte en clair (par exemple, ASCII à plat)

HTML
Hypertext Markup Language

XML
Extended Markup Language

GPP
General Purpose Format (texte à plat comportant des balises définies par l'utilisateur)

Outside-In (INSO)
Logiciel de filtrage permettant d'extraire le contenu texte des PDF et d'autres outils de formatage de texte courants, par exemple Microsoft Word. Pour plus d'informations, reportez-vous au Logiciel de filtrage Outside-In.

Pour les formats de document HTML, XML, GPP et les formats de filtre Outside-In, la recherche peut être limitée à des parties spécifiques d'un document. Le Chapitre 9, Utilisation de documents structurés explique comment définir et utiliser des modèles de document.

Aux endroits où les filtres Outside-In ne peuvent pas être utilisés pour les formats de documents non pris en charge, vous pouvez écrire une fonction définie par l'utilisateur (UDF). Cette fonction UDF doit être spécifiée au moment de la création de l'index et elle convertit les données du format non accepté en un format pris en charge.

Pour plus de détails, reportez-vous à la section CREATE INDEX.

Vous pouvez indexer des documents s'ils sont dans l'un des ID de jeu de caractères codés (CCSID) pris en charge. Ils sont également connus sous le nom de pages de codes. Pour en obtenir la liste, reportez-vous à l'Annexe D, CCSID pris en charge.

Pour vérifier la page de codes de la base de données, utilisez la commande DB2 suivante :

db2 GET DB CFG for <nombd>

Dans un but de cohérence, DB2 convertit normalement la page de codes d'un document dans celle de la base de données. Cependant, lorsque vous stockez les données dans une base de données DB2, dans une colonne dont le type de données est binaire, BLOB, FOR BIT DATA ou une valeur datalink par exemple, DB2 ne convertit pas les données et les documents gardent leur CCSID d'origine.

Notez que le fait d'avoir deux pages de codes différentes peut engendrer des incidents lors de la création d'un index de texte ou lors de la recherche. Pour plus d'informations, reportez-vous à la section Création d'un index de texte sur des types de données binaires.


[ Début de page | Page précédente | Page suivante | Table des matières | Index ]