Rational Insight-Data-Warehouse-Modell

IBM Rational Insight-Data-Warehouse (RIDW) ist die Komponente, die Daten von verschiedenen Systemen mit den aktuellen Betriebsdaten in einem Format speichert, das die Analyseberichterstellung ermöglicht und die zur Abfrageoptimierung, mehrdimensionalen Analyse und Ermittlung von Langzeittrends erforderliche Engine bereitstellt. Seine Datenstruktur unterscheidet sich von der Struktur von zeitnahen Transaktionssystemen, bei denen Informationen im Allgemeinen in normalisierter Form gespeichert werden. Während die ankommenden Daten verschiedene Programmabschnitte durchlaufen, bei denen sie temporär in normalisierten Tabellen zwischengespeichert werden, ist das endgültig verwendete Format ein Sternschema. In diesem Abschnitt wird die Basisdatenstruktur von RIDW beschrieben.

Datenspeicherbereiche

RIDW enthält drei Datenspeicherbereiche:

Konfigurationsbereich

In diesem Bereich werden wichtige Konfigurationsdaten über Entitäten wie Produktdatenquellen und Kalender gespeichert. Der Konfigurationsbereich enthält die Referenzeinstellungen des Data-Warehouse. Er besitzt vier Haupttabellen:
Tabelle 1.
Tabellenname Zweck der Tabelle
SYS_CONFIG Enthält die Systemkonfigurationsdaten, z. B. den Kalendertyp der Datendimension.
ETL_INFO Enthält ETL-Konfigurationsdaten, z. B. den ETL-Zeitplan (täglich, wöchentlich oder monatlich).
Für die Kompatibilität mit mehreren Datenquellen unterstützt RIDW sowohl ISO- als auch gregorianische Datentypen. Sie können die Konfigurationseinstellungen bei der Installation des Data-Warehouse und vor dem Ausführen einer ETL-Transaktion auswählen.

Speicher für operative Daten

In diesem Bereich werden von den Datenquellen während des ETL-Prozesses zusammengestellte Informationen empfangen, konsolidiert und gespeichert. RIDW unterstützt die folgenden Produkte: IBM Rational ClearQuest (Enterprise- und ALM-Schemata), IBM Rational ClearCase, IBM Rational Requisite Pro, IBM Rational Team Concert, IBM Rational Test Manager, IBM Rational Quality Manager, IBM Rational Team Manager und Microsoft Project. Die Daten werden dann bereinigt und verarbeitet, um die Konsistenz zwischen mehreren Quellen sicherzustellen. Durch die Prinzipien beim RIDW-Datenbankentwurf wird versucht, Folgendes sicherzustellen:
  • Rückverfolgbarkeit von Daten zu ihren Quellsystemen mit den aktuellen Betriebsdaten.
  • Gruppierung von Elementen auf Grundlage von Themen.
  • Darstellung eines vereinheitlichten normalisierten Bereichs, der von Datenquellen unabhängig ist.
Steuerspalten
Durch den ETL-Prozess werden einige zusätzliche Spalten hinzugefügt, die Steuerinformationen enthalten, die später von RIDW verwendet werden. Die folgenden drei verbindlichen Spalten bieten z. B. Informationen zur Identifikation:
  • EXTERNAL_KEY1 speichert den natürlichen Schlüssel, wenn es sich um eine Ganzzahl handelt.
  • EXTERNAL_KEY2 speichert den natürlichen Schlüssel, wenn es sich um den Typ "varchar" handelt.
  • SOURCE_ID speichert den GUID-Wert der Datenquelle.
Endbenutzer müssen die GUID nicht konfigurieren, da sie in der Entwurfsphase einer Datenquelle zugeordnet wird.

Es werden auch zwei weitere Steuerspalten hinzugefügt: ISSOFDELETED und REC_DATETIME.

ISSOFDELETED wird zum Markieren eines Satzes verwendet, der physisch in der ursprünglichen Quelle gelöscht wurde. Ihr Wert muss auf 1 gesetzt werden, wenn der Satz gelöscht wurde und auf 0, wenn er nicht gelöscht wurde.
Anmerkung: Sätze im normalisierten Bereich dürfen niemals physisch gelöscht werden, da sie möglicherweise mit Kennzahlen im Fakt- und Dimensionsbereich verknüpft sind.
REC_DATETIME ist eine Zeitmarkenspalte, deren Wert von der Datenbank festgelegt wird, sobald ein Satz eingefügt wird. Er wird fortlaufend durch den ETL-Prozess aktualisiert, wenn ein Satz aktualisiert wird.

Ersatzschlüssel

Ersatzschlüssel sind die durch den ETL-Prozess erstellten Primärschlüssel. Sie sind erforderlich, um die Unterschiede zwischen den Formaten der Primärschlüssel verschiedener Quellen außer Kraft zu setzen. In jeder extrahierten Tabelle werden von RIDW eigene Primärschlüssel erstellt, während der ursprüngliche Schlüssel in den Spalten EXTERNAL_KEY1 oder EXTERNAL_KEY2 erhalten bleibt. Ersatzschlüssel sind auf 0 basierende Ganzzahlen.

Klassifizierungstabellen

Hierbei handelt es sich um Tabellen, die häufig verwendete Artefakte wie Projekte, Anfragen, Anforderungen, Aufgaben, Aktivitäten und Komponenten darstellen. Sie können über den Namen erkannt werden, der das Wort KLASSIFIZIERUNG enthält. Jede Klassifizierungstabelle besitzt einen vordefinierten Satztyp, der einen allgemeinen Einblick zum Artefakt bietet. Das Konvertieren von extrahierten Tabellen in Klassifizierungstabellen wird vom ETL-Prozess verwaltet.

Pseudosatz

Alle Klassifizierungs- und Artefakttabellen enthalten eine Pseudozeile, die an einem Primärschlüsselwert von -1 erkennbar ist. Pseudozeilen unterstützen die Normalisierung von Daten, falls Nullwerte für die referenziellen Integritätsbedingungen definiert wurden.

Fakt- und Dimensionsbereich

Der Fakt- und Dimensionsbereich implementiert einen Sternschemaentwurf, der einen Satz von Fakten, Dimensionen und Langzeittabellen für die Rückverfolgbarkeit darstellt. Eine Fakttabelle enthält die Kennzahlen oder "Fakten" eines bestimmten Geschäftsprozesses. Wenn das Projektmanagement z. B. einen zu erfassenden Prozess darstellt, kann eine entsprechende Fakttabelle die Anzahl der Anforderungen enthalten. Dimensionstabellen enthalten Attribute, die beim Ausführen von Data-Warehousing-Abfragen zum Einschränken und Gruppieren von Daten verwendet werden. Wenn die Anzahl von Anforderungen eine Fakttabelle darstellt, können Sie den Anforderungstyp als Dimension verwenden.

Entwurfskonventionen

Die Namen von Dimensionstabellen beginnen mit "D_" und verfügen über Ersatzschlüssel zum Identifizieren von Sätzen. Die Namen von Fakttabellen beginnen mit "F_", während Tabellen mit Langzeiterkenntnissen zu Kennzahlen in den Fakttabellen mit "H_" beginnen. Der Primärschlüssel ist normalerweise eine Kombination aus Ersatzschlüssel der Kennzahl und dem Ersatzschlüssel des Artefakts, das zur Kennzahl beigetragen hat. Fakttabellennamen mit "F_C_" sind äquivalent zu ihren ursprünglichen Fakttabellen für die Trendermittlung, mit der Ausnahme, dass sie nur die aktuelle Momentaufnahme der Daten speichern, während ihre Entsprechungen Daten akkumulieren, um eine Trendermittlung im Verlauf der Zeit zu ermöglichen. Das Datamart beinhaltet auch verschiedene Sichten, die ein Fenster für den Speicher für operative Daten bieten, um detailliertere Informationen abrufen oder Listenberichte bereitstellen zu können.

Steuerspalten

Alle Fakttabellen besitzen eine Spalte, die auf die Datendimension D_DATE verweist. Für Tabellen zur Trendermittlung gibt das Datum in diesem Zusammenhang an, dass eine Momentaufnahme der Daten erstellt wurde. Für die anderen Fakttabellen gibt das Datum das Auftreten eines Ereignisses an, z. B. die Erstellung eines Satzes. Die Momentaufnahme der Daten kann mit einer Kennung versehen werden, um die Basis "pro Tag", "pro Woche" oder "pro Monat" in Abhängigkeit von dem Wert anzugeben, der in der Tabelle SYS_CONFIG im Konfigurationsbereich gespeichert wird. Andere Steuerspalten beziehen die Spalte REC_DATEIME mit ein, die beim Einfügen oder Aktualisieren eines Satzes als Zeitmarke für den Satz dient.

Nullanzeigersatz

Wie im Speicher für operative Daten enthalten Dimensionstabellen eine Nullanzeigerzeile, die am Primärschlüsselwert -1 erkennbar ist. Dies stellt den Nullwert für Tabellen mit Einschränkungen dar.


Feedback