Maestría de datos

Las empresas suelen utilizar varias herramientas para gestionar información de proyectos. La maestría de datos es la correlación de estos diversos proyectos dispares con una única entidad común. El catálogo de ejemplo define una infraestructura para simplificar la implementación del proceso ETL para la maestría de datos.
Si utiliza RequisitePro para gestionar requisitos, ClearQuest para gestionar solicitudes de cambio y ClearCase para gestionar código fuente, puede correlacionar el proyecto RequisitePro; algunos ejemplos de maestría de datos son los siguientes:

Implementación de la maestría de datos mediante archivos de configuración de datos XML.

Las tablas de correlación de dimensiones se emplean para definir las reglas para correlacionar dimensiones desde un origen de datos a otro. Las tablas de correlación de dimensiones son de dos tipos: Las tablas de correlación de dimensiones se pueden agrupar en categorías de correlación de dimensiones. Si utiliza categorías de grupo de recursos propias para agrupar orígenes de datos con la misma estructura de datos, también puede utilizar la categoría de correlación de dimensiones para agrupar tablas de correlación de dimensiones definidas para la misma dimensión común. Los trabajos ETL pueden consultar las tablas de correlación de dimensiones asociadas con la categoría y cargar automáticamente toda la información de correlación.

Cuando se definen las correlaciones en archivos de datos de configuración de datos XML, debe consultar la información en el controlador XML ODBC. La tabla del sistema System.DIMENSIONMAPPINGS se puede utilizar para consultar información sobre tablas de correlación de dimensiones disponibles. Todas las tablas de correlación de dimensiones se encuentran debajo del esquema DimensionMappings. Todas las tablas tienen la misma estructura; es decir, un valor_origen y un valor_destino. Se pueden utilizar para consultar las correlaciones de valores.

Implementación de la maestría de datos en el proceso ETL

En los artefactos del depósito de datos correspondientes a la dimensión común, sólo aquellos artefactos que se comportan como el maestro (destino de la correlación) o aquellos artefactos que no están correlacionados con ningún otro artefacto aparecerán en el almacén de datos operativos. Otros artefactos que están asociados a la dimensión común están enlazados directamente al artefacto de destino del artefacto original. Por ejemplo, si un Proyecto de UCM RI está correlacionado con un proyecto de ClearQuest Insight, sólo el proyecto de ClearQuest Insight aparece en la tabla PROJECT y las actividades de UCM que pertenecen al proyecto de UCM RI estarán enlazadas directamente con el proyecto de ClearQuest Insight en el depósito de datos. Para cada una de las dimensiones comunes, incluidas PROJECT, RELEASE, ITERATION, PRODUCT, COMPONENT y RESOURCE, las tablas de correlación intermedias con el prefijo M_ delante de los nombres se crean como tablas empleadas en ETL para almacenar la relación de correlación.

El flujo de datos ETL para crear la maestría de datos es el siguiente:

La maestría de datos abarca varios orígenes de datos. Por lo tanto, el trabajo ETL debe reflejar el flujo de datos global. La anterior implementación para la maestría de datos es específica del proceso ETL y no tiene ningún impacto sobre otros componentes. En el catálogo de ejemplo, un proyecto TestManager está correlacionado con un proyecto ALM de ClearQuest y los usuarios de TestManager con los usuarios ALM de ClearQuest con el mismo nombre. Si detecta errores al abrir el archivo de configuración de datos XML para el proceso ETL de TestManager, actualice las tablas de correlación de dimensiones de tal modo que apunten al archivo de configuración de datos XML utilizado para el proceso ETL de ClearQuest en el sistema.


Comentarios