Configuration de la fonction de recherche des relations

Cette fonction permet de rechercher des relations entre des sources et des cibles dans l'éditeur de mappage. La fonction est configurée pour effectuer des recherches de correspondance d'éléments de base sans autre modification de la configuration. Vous pouvez cependant affiner la façon dont la fonction recherche les relations en mettant à jour les préférences de l'éditeur de mappage.

Les propriétés de vos données et des structures de l'éditeur de mappage peuvent être utilisées pour intégrer des données. Vous pouvez utiliser les propriétés des données et des structures, les métadonnées, pour comprendre les relations entre les sources de données cible et source. Par exemple, en utilisant les relations de métadonnées, vous pouvez générer un script pour associer correctement des données d'une base de données existante avec celles de la nouvelle acquisition. Les propriétés de métadonnées peuvent inclure des relations difficiles à identifier, notamment lorsque des schémas sont trop importants, sans l'aide de la fonction de recherche.

La fonction examine les métadonnées pour rechercher des correspondances sans interaction manuelle avec les métadonnées. La configuration vous permet de modifier la façon dont la fonction de recherche effectue la recherche et sur quelles données et métadonnées se base la recherche.

Vous pouvez définir une configuration globale pour la fonction de recherche en définissant les préférences dans l'assistant Plan de travail Fenêtre > Préférences. Ces configurations sont conservées lorsque vous ouvrez et fermez les éditeurs de mappage et deviennent les valeurs par défaut des nouveaux modèles de mappage. Vous pouvez ignorer les configurations globales d'une instance d'éditeur de mappage spécifique en utilisant la configuration avancée. Ces paramètres ne sont pas conservés lorsque vous fermez l'éditeur de mappage.

Fonction de recherche de base

La fonction de recherche propose deux méthodes de contrôle et d'ajustement du nombre de correspondances affichées : Rechercher le meilleur ajustement et Rechercher semblable.
Rechercher le meilleur ajustement
Commencez toujours par sélectionner cette méthode lorsque vous tentez de rechercher des relations entre des objets. Cette méthode d'exécution de la fonction recherche le pourcentage de correspondance le plus élevé parmi les associations d'objets de tous les éléments du modèle. Un objet peut être associé à tout autre objet à tout moment. Mais lorsque la fonction de recherche analyse l'intégralité d'un modèle de mappage, la méthode Rechercher le meilleur ajustement permet d'obtenir les correspondances les plus pertinentes de tout le modèle. Cette méthode renvoie au maximum une correspondance pour la cible et la source sélectionnées. Il est possible de ne trouver aucune correspondance.
Rechercher semblable
Si vous n'êtes pas totalement satisfait des résultats de la méthode Rechercher le meilleur ajustement, vous pouvez rechercher d'autres correspondances avec la méthode Rechercher semblable. Lorsque vous utilisez la configuration par défaut, la méthode recherche les 5 meilleures correspondances de chaque élément cible sélectionné. Vous pouvez modifier ce nombre. Généralement, la méthode Rechercher semblable n'est utilisée que lorsqu'un objet cible est spécifié pour affiner la recherche.

Configuration avancée : contrôle des méthodes de recherche

Pour accéder à des techniques de recherche plus avancées, cliquez sur Rechercher les relations > Configuration avancée pour spécifier les algorithmes à utiliser pour la recherche des relations entre les sources et les cibles. Vous pouvez définir des paramètres pour chaque algorithme sélectionné, afin d'affiner la recherche. Les paramètres disponibles dépendent de l'algorithme sélectionné.
Similitude lexicale
Cet algorithme permet de rechercher des relations en fonction de la plus longue sous-séquence commune ou d'une similitude des valeurs des éléments. Cet algorithme de correspondance de chaînes recherche une sous-séquence d'une longueur maximum ou d'un poids maximum, commune à deux chaînes ou plus. Par exemple, s'il existe une chaîne courte (le modèle) et une chaîne longue (le texte), et que les lettres du modèle apparaissent dans l'ordre (elles peuvent être cependant séparées) dans le texte, le modèle est une sous-séquence du texte. L'exemple suivant illustre ce concept :
Modèle = Mont
Texte = le Monde des mots.

Le modèle est une sous-séquence du texte.
La similitude lexicale est l'algorithme par défaut. Par exemple, il existe une similitude de valeur entre des éléments s'ils représentent la même propriété d'entité, comme les éléments Sample.Employee.Eno et OtherSample.EMP.ID. Les éléments ayant des clés externes et des index ont des propriétés similaires. Une mesure de distance permet de rechercher les similitudes et les différences entre les éléments. Par exemple, pour mettre en correspondance 10 éléments source et 20 éléments cible, une mesure de distance peut renvoyer jusqu'à 200 valeurs différentes, c'est-à-dire 10 éléments source multipliés par 20 éléments cible. Chaque mesure est généralement une combinaison de l'élément source, l'élément cible et une valeur de distance. Le seuil de rejet, ou la valeur maximale à laquelle la correspondance est rejetée, est une valeur de distance. La valeur suggérée pour le seuil de rejet est 1.
Nom sémantique
Cet algorithme permet de rechercher des relations par thésaurus et ontologie. Vous pouvez utiliser des applications de logiciels de thésaurus et des modèles de glossaire pour améliorer l'algorithme de nom sémantique. La valeur suggérée pour le seuil de rejet est 0,4. Si vous voulez spécifier un thésaurus, sélectionnez-le dans la liste. La liste répertorie les applications prises en charge, WordNet et SureWord par exemple, lorsque celles-ci sont installées sur votre système. De plus, tous les modèles de glossaire comportant des informations de synonymes du projet actuel peuvent être sélectionnés comme thésaurus. Si vous utilisez un thésaurus externe, vous n'avez pas besoin de configuration supplémentaire sur la page de préférences de l'éditeur de mappage.
Signature
Cet algorithme permet de rechercher des relations en utilisant une méthode de recherche basée sur une signature de nom. Il utilise l'échantillonnage de données pour rechercher les relations. Une valeur de pondération est affectée à un certain nombre de classes de mots des données. La valeur suggérée pour la taille d'échantillon est de 100 lignes. Les valeurs valides pour la taille d'échantillon sont 50, 100, 150, 200, 250, 300, 350 et 400. La valeur suggérée pour le taux d'échantillonnage est 20 %. Une valeur valide est un entier compris entre 1 et 100. La valeur suggérée pour le seuil de rejet est 1. Les schémas utilisés dans cette fonction doivent être des schémas DB2 Universal Database. Pour utiliser cet algorithme, vous devez spécifier des informations de connexion et d'autorisation pour l'accès aux données. Lorsque l'échantillonnage de données est utilisé, les données utilisées pour l'exécution de la fonction de recherche sont mises en cache. Vous pouvez sélectionner une base de données de mise en cache dans la liste des bases de données disponibles déjà configurées ou indiquer une nouvelle base de données de mise en cache.
Expressions régulières
Cet algorithme permet de rechercher des relations avec une méthode de recherche de texte ou de chaînes, en utilisant des expressions régulières ou des correspondances de modèles. Une expression régulière simple est une correspondance exacte de caractères.
Distributions
Cet algorithme permet de rechercher des relations en utilisant une méthode de recherche basée sur une similitude des données. La fonction de recherche effectue un échantillonnage des données pour rechercher les relations. Les schémas utilisés dans cette fonction doivent être des schémas DB2 Universal Database. Pour utiliser cet algorithme, vous devez spécifier des informations de connexion et d'autorisation pour l'accès aux données. La valeur suggérée pour la taille d'échantillon est de 100 lignes. Les valeurs valides pour la taille d'échantillon sont 50, 100, 150, 200, 250, 300, 350 et 400. La valeur suggérée pour le taux d'échantillonnage est 20 %. Une valeur valide est un entier compris entre 1 et 100. La valeur suggérée pour le seuil de rejet est 1.

Lorsque vous sélectionnez plusieurs algorithmes, vous pouvez choisir de les combiner par ordre ou par pondération. Si vous choisissez de les combiner par pondération, spécifiez un pourcentage d'importance pour chaque algorithme. Vous pouvez affiner les résultats de la fonction en les triant en fonction des algorithmes pondérés et ne conserver que les pourcentages les plus élevés. Si vous choisissez de les combiner par ordre, affectez un ordre de priorité à chaque algorithme. Sélectionner plusieurs algorithmes permet de combiner leur force pour rechercher des relations de façon plus précise.

Vous pouvez déterminer un seuil pour les valeurs de fiabilité afin de contrôler le type de correspondance à considérer. Vous pouvez utiliser la fonction de recherche entre des parties spécifiques des sources et des cibles, jusqu'aux plus petits éléments.

Concepts associés
Portée des relations
Tâches associées
Configuration des préférences de l'éditeur de mappage
Recherche de relations entre des sources et des cibles
Création et utilisation de modèles de nom
Référence associée
Assistant Configuration avancée

Commentaires en retour