Modèle d' Rational Insight data warehouse

Le RIDW (IBM® Rational Insight data warehouse) est le composant qui stocke des données issues de divers systèmes opérationnels dans un format facilitant la génération de rapports analytiques et qui fournit le moteur nécessaire à l'optimisation de requêtes, l'analyse multidimensionnelle et la tendance historique. Sa structure de données est différente de celle de systèmes transactionnels actifs qui stockent généralement des données sous une forme normalisée. Bien que des données entrantes passent par plusieurs étapes durant lesquelles elles sont stockés temporairement dans des tables normalisées, le format final utilisé est un schéma en étoile. Cette section décrit la structure de données de base de RIDW.

Zones de stockage de données

Le RIDW contient trois zones de stockage de données :

Zone de configuration

Cette zone stocke des informations importantes de configuration concernant des entités comme des sources de données et des calendriers. La zone de configuration contient les paramètres de référence de l'entrepôt de données. Elle possède quatre tables principales.
Tableau 1.
Nom de table Objet de la table
SYS_CONFIG Contient des informations de configuration système, comme le type de calendrier pour la dimension de date.
ETL_INFO Contient des informations de configuration ETL (extraction, transformation et chargement), comme un planning ETL (quotidien, hebdomadaire ou mensuel)
A titre de compatibilité avec de nombreuses sources de données, RIDW prend en charge des types de date ISO et grégorien. Vous pouvez sélectionner les paramètres de configuration une fois l'entrepôt de données installé et avant d'avoir exécuté une transaction ETL.

Magasin de données opérationnel

Il s'agit de la zone de réception, de consolidation et de stockage des informations regroupées à partir de sources de données durant le processus ETL. RIDW prend en charge les produits suivants : IBM Rational ClearQuest (schémas Enterprise et ALM), IBM Rational ClearCase, IBM Rational Requisite Pro, IBM Rational Team Concert, IBM Rational Test Manager, IBM Rational Quality Manager, IBM Rational Team Manager et Microsoft® Project. Les données sont ensuite nettoyées et traitées pour assurer la cohérence entre plusieurs sources. Les principes de conception de la base de données RIDW visent à assurer les opérations suivantes :
  • Traçabilité des données vis-à-vis des systèmes opérationnels source
  • Regroupement d'éléments fondé sur des sujets
  • Présentation d'une zone normalisée unifiée indépendante des sources de données
Colonnes de contrôle
Le processus ETL ajoute quelques colonnes supplémentaires qui contiennent des informations de contrôle que RIDW utilisera ultérieurement. Par exemple, les trois colonnes obligatoires suivantes fournissent des informations d'identification :
  • EXTERNAL_KEY1 stocke la clé naturelle s'il s'agit d'un entier
  • EXTERNAL_KEY2 stocke la clé naturelle s'il est du type varchar
  • SOURCE_ID stocke la valeur GUID de la source de données
Les utilisateurs finals n'ont pas besoin de configurer le GUID (identificateur global unique) puisqu'il est attribué à une source de données durant la phase de conception.

Deux colonnes de contrôle supplémentaires sont également ajoutées : ISSOFDELETED et REC_DATETIME.

ISSOFDELETED permet de marquer un enregistrement qui a été supprimé physiquement de la source d'origine. Sa valeur doit être définie à 1 si l'enregistrement est supprimé et à 0 s'il ne l'est pas.
Remarque : Les enregistrements d'une zone normalisée ne doivent jamais être supprimés physiquement puisqu'ils peuvent être liés à des mesures dans les zones de fait et de dimension.
REC_DATETIME est une colonne d'horodatage dont la valeur est définie par la base de données toutes les fois qu'un enregistrement est inséré et ensuite mis à jour par l'ETL, si l'enregistrement doit être mis à jour.

Clés de substitution

Les clés de substitution sont les clés primaires créées par le processus ETL. Elles sont nécessaires pour corriger des différences entre les formats de clés primaires provenant des différentes sources. Dans toute table extraite, RIDW crée ses propres clés primaires et retient la clé d'origine dans les colonnes EXTERNAL_KEY1 ou EXTERNAL_KEY2. Les clés de substitution sont des entiers basés sur 0.

Tables de classification

Il s'agit de tables représentant des artefacts communément utilisés ; il peut s'agir de projets, de demandes, d'exigences, de tâches, d'activités et de composants. Elles sont reconnaissables par leur nom qui contient le mot "CLASSIFICATION". Toutes les tables de classification ont un type d'enregistrement prédéfini qui représente une compréhension commune de l'artefact. C'est le processus ETL qui gère la conversion de tables extraites en tables de classification.

Enregistrement factice

Toutes les tables de classification et d'artefact contiennent une ligne factice identifiable par une valeur de clé primaire de -1. Les lignes factices prennent en charge la normalisation des données en cas de valeurs NULL pour les contraintes référentielles définies.

Zone de fait et de dimension

La zone de fait et de dimension implémente une conception de schéma en étoile qui représente un ensemble de tables des faits, de dimensions et de traçabilité historique. Une table des faits contient les mesures ou 'faits' d'un processus métier particulier. Par exemple, si une gestion de projet est un processus que vous souhaitez mesurer, la table des faits correspondante pourrait très bien contenir le nombre d'exigences. Les tables de dimension contiennent des attributs permettant de contraindre et de grouper des données lors de l'exécution de requêtes de création d'entrepôts de données. Si un nombre d'exigences est une table des faits, vous pourriez alors vouloir utiliser un type d'exigence comme dimension.

Conventions de conception

Les noms des tables de dimension commencent par "D_" et disposent de clés de substitution permettant d'identifier des enregistrements. Les noms des tables des faits débutent pas "F_", tandis que des tables qui fournissent une vue historique sur des mesures trouvées dans les tables des faits débutent par "H_". La clé primaire est généralement une combinaison d'une clé de substitution de la mesure et de la clé de substitution de l'artefact ayant contribué à la mesure. Les noms de tables des faits avec "F_C_" sont équivalents à leur table des faits relatives à des tendances d'origine, sauf qu'ils ne stockent que l'instantané le plus récent des données, mais leurs homologues accumulent des données pour permettre des études de tendances au fil du temps. Le magasin de données ciblé comprend également un ensemble de vues offrant une fenêtre sur le magasin de données opérationnel ce qui permet d'obtenir davantage de détails ou de fournir des rapports de liste.

Colonnes de contrôle

Toutes les tables des faits disposent d'une colonne qui référence la dimension de date D_DATE. Pour des tables de tendance, la date qui figure dans ce contexte indique la date à laquelle l'instantané des données a été pris. Pour les autres tables des faits, la date reflète l'occurrence d'un événement comme la création d'un enregistrement. Vous pouvez référencer l'instantané des données pour indiquer une base 'par jour', 'par semaine' ou 'par mois' selon la valeur stockée dans la table SYS_CONFIG de la zone de configuration. D'autres colonnes de contrôle incluent la colonne REC_DATEIME, qui fait office de tampon d'enregistrement pour l'insertion ou la mise à jour d'un enregistrement.

Enregistrement d'indicateur de type NULL

A l'instar du magasin de données opérationnel, les tables de dimension contiennent une ligne d'indicateur de type NULL identifiable par une clé primaire de -1. Ceci représente la valeur NULL pour des tables avec contraintes.