La función de descubrimiento se utiliza para encontrar relaciones entre orígenes y destinos en el editor de correlaciones. La función de descubrimiento se configura para búsquedas básicas de elementos coincidentes sin tener que modificar más la configuración. Sin embargo, puede reajustar la forma en que la función busca las relaciones mediante la actualización de las preferencias del editor de correlaciones.
Las propiedades de los datos y las propiedades de las estructuras en el editor de correlaciones se pueden utilizar para integrar datos. Puede utilizar las propiedades de los datos y las propiedades de las estructuras, o los metadatos, para entender las relaciones entre el origen de los datos de origen y el de los datos de destino. Por ejemplo, si utiliza las relaciones de metadatos, podrá crear un script que asocie datos correctamente de una base de datos de herencia con datos en una nueva adquisición. Las propiedades de los metadatos pueden incluir relaciones que podrían ser difíciles de identificar, especialmente cuando los esquemas son grandes, sin la ayuda de la función de descubrimiento.
La función de descubrimiento sirve para examinar los metadatos con el fin de encontrar posibles coincidencias sin la interacción manual con los metadatos. La configuración permite modificar la forma en que la función de descubrimiento debería realizar la búsqueda y los datos y metadatos en los que basar la búsqueda.
Puede definir una configuración global para la función de descubrimiento estableciendo las preferencias en el asistente del entorno de trabajo . Estas configuraciones persisten cuando se abren y cierran los nuevos editores de correlaciones y se convierten en los valores por omisión para los nuevos modelos de correlación. Puede alterar temporalmente las configuraciones globales para una determinada instancia del editor de correlaciones utilizando la configuración Avanzadas.
Estas configuraciones se pierden cuando se cierra el editor de correlaciones.
Función básica de descubrimiento
La función de descubrimiento proporciona dos métodos de control y ajuste del número de coincidencias que se ven:
Buscar mejor ajuste y
Buscar similares.
- Buscar mejor ajuste
- Siempre debería seleccionar primero este método cuando intente encontrar relaciones entre objetos. Este método de ejecución de la función de descubrimiento sirve para encontrar la mejor puntuación de todos los emparejamientos potenciales de objetos en todos los elementos del ámbito del modelo. Existe la posibilidad de que cualquier objeto coincida con cualquier otro objeto en cualquier momento. No obstante, cuando la función de descubrimiento analiza todos los participantes del modelo de correlación, el método Buscar mejor ajuste encuentra las mejores coincidencias de todo el modelo. El método devuelve como máximo una coincidencia para un destino y un origen que seleccione. Es posible que no se encuentre ninguna coincidencia.
- Buscar parecido
- Si no está totalmente satisfecho con los resultados del método Buscar mejor ajuste, puede buscar otras coincidencias mediante la ejecución del método Buscar similares. Cuando utilice la configuración por omisión, el método buscará las primeras 5 coincidencias para cada elemento de destino que seleccione. Ese número se puede cambiar. Generalmente, sólo se desea seleccionar Buscar similares cuando se especifica un objeto de destino en el que centrar la búsqueda.
Configuración avanzada: control de los métodos de búsqueda
Si desea ver técnicas de descubrimiento más avanzadas, pulse para especificar qué algoritmos se deben utilizar cuando se buscan relaciones entre orígenes y destinos. Por cada algoritmo que seleccione, podrá definir parámetros para refinar la búsqueda. Los parámetros disponibles dependerán del algoritmo que seleccione.
- Semejanza léxica
Utilice este algoritmo para buscar relaciones por subdivisión común más larga o por parecido en los valores de los elementos. Este algoritmo es un algoritmo de coincidencia de cadenas de caracteres que busca una subdivisión de longitud máxima o peso máximo de dos o más cadenas de caracteres que sea común entre ellas. Por ejemplo, si tiene una cadena de caracteres corta (el patrón) y una cadena de caracteres larga (el texto), y las letras del patrón aparecen ordenadas (pero posiblemente separadas) en el texto, el patrón será una subdivisión del texto. En el ejemplo siguiente se muestra este concepto:
Patrón=Wood
Text=The World of words.
El patrón es una subdivisión del texto.
El parecido léxico es el algoritmo por omisión. Por ejemplo, hay un parecido de valor entre los elementos si representan la misma propiedad de la entidad, como elementos Sample.Employee.Eno y OtherSample.EMP.ID. Los elementos con claves foráneas e índices tienen propiedades parecidas. Se utiliza una métrica de distancia para buscar el parecido y las diferencias entre elementos. Por ejemplo, si es necesario que 10 elementos de origen y 20 elementos coincidan, una métrica de distancia puede devolver potencialmente 200 medidas o 10 elementos de origen multiplicados por 20 elementos de destino. Cada medida es, generalmente, una combinación del elemento de origen, del elemento de destino y de un valor de distancia. El umbral de rechazo o el valor máximo por el que se rechaza la coincidencia es un valor de distancia. El valor sugerido para el umbral de rechazo es el 1.
- Nombre semántico
- Utilice este algoritmo para buscar relaciones por tesauro y ontología. Puede utilizar aplicaciones de software de tesauro compatibles y modelos de glosario para ampliar el algoritmo de nombre semántico. El valor sugerido para el umbral de rechazo es 0,4. Si desea especificar un tesauro, selecciónelo de la lista. La lista muestra las aplicaciones compatibles, como WordNet
o SureWord, cuando se instalan en el sistema. Además, cualquier modelo de glosario con información sobre sinónimos en el proyecto actual puede seleccionarse como tesauro Si utiliza un tesauro externo, no necesitará ninguna otra configuración en la página de preferencias del editor de correlaciones.
- Signatura
- Utilice este algoritmo para buscar relaciones con un método de búsqueda que esté basado en una signatura. Este algoritmo utiliza un muestreo de datos para buscar las relaciones.
Un valor de peso se asigna a determinadas clases de palabras en los datos. El valor sugerido de tamaño de muestreo es de 100 filas. Los valores válidos para el tamaño de muestreo son 50, 100, 150, 200, 250, 300, 350 y 400. El valor sugerido para un porcentaje de muestreo es 20. El valor válido es cualquier entero entre 1 y 100. El valor sugerido para el umbral de rechazo es 1. Los esquemas que se utilizan en esta función de descubrimiento deben ser esquemas DB2 Universal Database.
Para utilizar este algoritmo, debe especificar alguna información sobre conexión y autorización con el fin de acceder a los datos. Cuando se utiliza el muestreo de datos, los datos para ejecutar la función de descubrimiento se guardan en la memoria caché. Puede seleccionar una base de datos de almacenamiento en memoria caché de una lista de bases de datos disponibles que ya estén configuradas, o puede especificar una nueva base de datos de almacenamiento en memoria caché.
- Expresiones regulares
- Utilice este algoritmo para buscar relaciones con un método de búsqueda que está basado en búsquedas textuales o de cadenas de caracteres en las que se utilizan expresiones regulares o la coincidencia de patrones. Una simple expresión regular es una coincidencia exacta de caracteres.
- Distribuciones
- Utilice este algoritmo para buscar relaciones con un método de búsqueda que está basado en un parecido de los datos. La función de descubrimiento lleva a cabo algunos muestreos de datos para buscar las relaciones. Los esquemas que se utilizan en esta función de descubrimiento deben ser esquemas DB2
Universal Database. Para utilizar este algoritmo, debe especificar alguna información sobre conexión y autorización con el fin de acceder a los datos. El valor sugerido de tamaño de muestreo es de 100 filas. Los valores válidos para el tamaño de muestreo son 50, 100, 150, 200, 250, 300, 350 y 400. El valor sugerido para un porcentaje de muestreo es 20. El valor válido es cualquier entero entre 1 y 100. El valor sugerido para el umbral de rechazo es el 1.
Cuando seleccione varios algoritmos, puede elegir la combinación de algoritmos por secuencia o por peso. Si desea combinar los algoritmos por peso, puede especificar el porcentaje de importancia de cada algoritmo. Puede volver a definir los resultados de la función de descubrimiento ordenando los resultados de los algoritmos de peso y guardando únicamente el porcentaje superior.
Si desea combinar los algoritmos por secuencia, puede especificar el orden de precedencia de cada algoritmo. La selección de varios algoritmos permite combinar la potencia de los algoritmos seleccionados para encontrar relaciones de forma más precisa.
Puede determinar un umbral para los valores de confianza, de modo que controle los tipos de coincidencias que puede tener en cuenta. Puede ejecutar la función de descubrimiento entre partes específicas de orígenes y destinos, de manera que descienda hasta llegar al elemento más pequeño de origen o de destino.