Objectif :
|
Etablir le profil de données des différentes sources de données
|
Maintenant que vous avez identifié les différentes sources de données, vous pouvez commencer à les analyser afin de
déterminer leur profil de données. Le profil de données est un ensemble d'informations relatives au contenu, à la
structure et à la qualité des données. Il sera enregistré dans la spécification sur la migration des données.
Voici la procédure détaillée permettant d'établir le profil de données :
La première étape pour établir le profil de données est de rassembler les métadonnées décrivant les sources de données.
Cela peut inclure des programmes source, des descriptions de référentiel ou de dictionnaire, des informations relatives
à un catalogue relationnel, la documentation d'un projet précédent et toute autre information pouvant permettre de
comprendre les données. Si le système a été développé avec le processus RUP, vous pouvez utiliser le modèle de données, les cas
d'utilisation et les réalisations de cas d'utilisation comme sources pour comprendre la
façon dont le système utilise les données. Il peut également être utile d'interroger les développeurs d'origine ou
l'administrateur de base de données qui gère les données.
Cependant, la documentation (autre que les informations automatiquement gérées dans le cadre du système ou obtenues par
génération de code) doit être considérée avec circonspection. Elle a été valide à un certain moment mais elle perd en
fiabilité avec le temps. Les systèmes en vigueur sont souvent peu documentés lors de leur création et la documentation
est rarement mise à jour lorsque des modifications sont effectuées. Même si les métadonnées existantes ne sont pas à
jour, elles souvent les seules informations disponibles à propos des sources et sémantiques de données. Le processus de
définition de profil expose les discordances entre les métadonnées et les données réelles et complète les parties
importantes des informations manquantes.
La deuxième étape de l'identification d'un profil de données est le développement d'un plan des sources de données. Ce
plan indique comment les zones de données sont enregistrées et détermine des règles pour les redéfinitions et les
groupes de données qui se répètent dans les structures de données.
Si la source de données est relationnelle, le plan peut être extrait directement du schéma de la base de données. Dans
la mesure où ces structures sont appliquées par le système de gestion de base de données, il n'est pas nécessaire de
mettre en doute leur validité.
Si la source de données n'est pas relationnelle, vous devez utiliser les métadonnées en conjonction avec les données
pour obtenir les données de façon normalisée. Vous devez porter une attention toute particulière aux attributs de
surcharge. La surcharge est le processus d'enregistrement de faits multiples dans le même attribut.
Une fois cette étape de l'identification du profil de données terminée, vous pouvez procéder à une extraction
échantillon des sources de données, dans le format normalisé, afin de poursuivre le processus d'identification du
profil. Généralement cette extraction se fait avec les scripts d'extraction des composants de migration car c'est
également une bonne façon de les tester.
La troisième étape de l'identification du profil de données consiste à déterminer le contenu, le domaine et la qualité
des données de chaque attribut et d'établir la sémantique de chaque attribut. Il est important d'effectuer cette
opération sur la source de données elle-même car les métadonnées documentées peuvent être incorrectes.
Cette opération vous permet d'identifier :
-
Les attributs documentés pour une utilisation mais utilisés pour une autre
-
Les attributs documentés mais non utilisés
-
Les incohérences entre le contenu des données d'un attribut et sa signification sémantique
-
La cardinalité de l'attribut afin d'identifier les attributs morts (ceux ne contenant qu'une valeur)
Les systèmes en vigueur et même les systèmes relationnels utilisent généralement la "dénormalisation" et les doublons
de données en raison de leurs tentatives d'amélioration des performances. Le support de clé principale et de clé
externe est également souvent déficient. Cela signifie que vous devez analyser les tables source pour déterminer les
dépendances fonctionnelles entre les attributs et pour identifier les clés principales et externes.
Une fois le profil établi, vous devez le revoir à deux différents niveaux. Le premier niveau consiste à décider si
l'attribut doit être migré ou non. Vous pouvez décider de ne pas migrer un attribut s'il ne contient aucune information
utile ou si la qualité des données est tellement médiocre que celles-ci ne peuvent pas être migrées sans corrompre la
cible. Le second niveau consiste à déterminer si les attributs doivent être vérifiés au cours de la migration.
Lorsque des problèmes de qualité sont découvert lors de l'identification du profil, vous devez nettoyer les données, en
supprimant ou modifiant les données incorrectes, en double, au format incorrect ou incomplètes. Cette opération est
généralement appelée vérification de données.
|