Model programu Rational Insight Data Warehouse

Program IBM Rational Insight Data Warehouse (RIDW) jest komponentem zapisującym dane z różnych systemów operacyjnych w formacie ułatwiającym raportowanie analityczne i udostępnia mechanizm wymagany do optymalizacji zapytań, analizy wielowymiarowej i opracowywania trendów historycznych. Jego struktura danych różni się od systemów transakcyjnych działających na bieżąco, które na ogół przechowują informacje w postaci znormalizowanej. Kiedy dane przychodzące przechodzą przez kolejne etapy, na których są tymczasowo zapisywane w znormalizowanych tabelach, ostatecznie użytym formatem jest schemat gwiaździsty. W tej sekcji opisano podstawową strukturę danych w hurtowni danych RIDW.

Obszary przechowywania danych

Hurtownia danych RIDW obejmuje trzy obszary przechowywania danych:

Obszar konfiguracji

W tym obszarze zapisywane są ważne informacje dotyczące konfiguracji jednostek, na przykład źródła danych produktu i kalendarze. Obszar konfiguracji zawiera ustawienia odniesień dla hurtowni. Składa się z czterech głównych tabel:
Tabela 1.
Nazwa tabeli Przeznaczenie tabeli
SYS_CONFIG Zawiera informacje o konfiguracji systemu, na przykład typ kalendarza wymiaru danych.
ETL_INFO Zawiera informacje konfiguracyjne procesu ETL (wyodrębniania, transformacji i ładowania), takie jak harmonogram procesu ETL (codziennie, raz w tygodniu, raz w miesiącu).
W celu zapewnienia kompatybilności z wieloma źródłami danych hurtownia danych RIDW obsługuje daty w formatach ISO i Gregoriańskim. Ustawienia konfiguracji można wybrać po zainstalowaniu hurtowni i przed wykonaniem transakcji ETL.

Operacyjna składnica danych

Jest to obszar, w którym informacje zebrane ze źródeł danych w procesie ETL są odbierane, konsolidowane i zapisywane. Hurtownia danych RIDW obsługuje następujące produkty: IBM Rational ClearQuest (schematy Enterprise i ALM), IBM Rational ClearCase, IBM Rational Requisite Pro, IBM Rational Team Concert, IBM Rational Test Manager, IBM Rational Quality Manager, IBM Rational Team Manager i Microsoft Project. Następnie dane są czyszczone i przetwarzane w celu zapewnienia spójności między wieloma źródłami. Zasady projektowania bazy danych hurtowni danych RIDW powinny zapewnić następujące cechy:
  • Śledzenie danych do ich źródłowych systemów operacyjnych
  • Grupowanie elementów na podstawie tematu
  • Przedstawianie ujednoliconego obszaru niezależnego od źródeł danych
Kolumny sterujące
Proces ETL dodaje kilka kolumn zawierających informacje sterujące, których później używa hurtownia danych RIDW. Na przykład następujące trzy obowiązkowe kolumny udostępniają informacje służące do identyfikacji:
  • EXTERNAL_KEY1 zawiera klucz naturalny, jeśli jest liczbą całkowitą.
  • EXTERNAL_KEY2 zawiera klucz naturalny, jeśli jest typu varchar.
  • SOURCE_ID zawiera wartość GUID źródła danych.
Użytkownicy końcowi nie muszą konfigurować identyfikatora GUID, gdyż jest on przypisywany do źródła danych w fazie projektowania.

Dodawane są jeszcze dwie kolumny: ISSOFDELETED i REC_DATETIME.

ISSOFDELETED służy do oznaczania rekordu, który został fizycznie usunięty z pierwotnego źródła. Jego wartość należy ustawić na 1, jeśli rekord jest usunięty, a na 0, jeśli nie jest.
Uwaga: Nigdy nie należy usuwać rekordów z obszaru znormalizowanego, gdyż mogą one być powiązane z miarami w obszarze faktów i wymiarów.
REC_DATETIME jest kolumną datownika, której wartość jest ustawiana przez bazę danych zawsze podczas wstawiania rekordu. Wartość tej kolumny jest później aktualizowana przez proces ETL, jeśli rekord powinien być zaktualizowany.

Klucze odpowiedniki

Klucze odpowiedniki są kluczami podstawowymi utworzonymi podczas procesu ETL. Są one wymagane do przesłonięcia różnic między formatami kluczy podstawowych z różnych źródeł. W każdej wyodrębnionej tabeli hurtownia danych RIDW tworzy własne klucze podstawowe i zachowuje pierwotny klucz w kolumnach EXTERNAL_KEY1 lub EXTERNAL_KEY2. Klucze odpowiedniki są liczbami całkowitymi liczonymi od 0.

Tabele klasyfikacji

Są to tabele reprezentujące powszechnie wykorzystywane artefakty, takie jak projekty, żądania, wymagania, zadania, działania i komponenty. Można je rozpoznać dzięki nazwie, która zawierać słowo “CLASSIFICATION”. Każda tabela klasyfikacji ma wstępnie zdefiniowany typ reprezentujący powszechne zrozumienie artefaktu. Przekształcaniem wyodrębnionych tabel w tabele klasyfikacji zarządza proces ETL.

Rekord pozorny

Wszystkie klasyfikacje i tabele artefaktów zawierają pozorny wiersz, który można zidentyfikować poprzez wartość klucza podstawowego równą -1. Wiersze pozorne obsługują normalizację danych w przypadku wystąpienia wartości pustych dla zdefiniowanych ograniczeń referencyjnych.

Obszar faktów i wymiarów

Obszar faktów i wymiarów implementuje schemat gwiaździsty, który jest zbiorem faktów, wymiarów i tabel śledzenia historycznego. Tabela faktów zawiera miary lub ‘fakty’ określonego procesu biznesowego. Na przykład, jeśli zarządzanie projektami jest procesem, który ma być mierzony, to odpowiadająca mu tabela faktów może zawierać pewną liczbę wymagań. Tabele wymiarów zawierają atrybuty służące do ograniczania i grupowania danych w zapytaniach służących do opracowywania danych. Jeśli pewna liczba wymagań tworzy tabelę faktów, to typ wymagania może służyć jako wymiar.

Konwencje projektowe

Nazwy tabel wymiarów zaczynają się od ciągu “D_” i mają klucze odpowiedniki identyfikujące rekordy. Nazwy tabel faktów zaczynają się od ciągu “F_”, natomiast tabele zawierające historyczne wglądy w miary znalezione w tabelach faktów zaczynają się od ciągu “H_”. Klucz podstawowy jest zazwyczaj kombinacją klucza odpowiednika miary i klucza odpowiednika artefaktu, na którym opiera się miara. Tabele faktów o nazwach zaczynających się od ciągu “F_C_” są równoważne pierwotnym tabelom faktów trendu, z tą różnicą, że przechowują one tylko najnowszy obraz stanu danych, podczas gdy ich odpowiedniki gromadzą dane, aby umożliwić śledzenie trendu w czasie. Tematyczna hurtownia danych również składa się ze zbioru widoków udostępniających okno do operacyjnej składnicy danych w celu rozszerzania i uwzględnienia większej liczby szczegółów lub list umożliwiających tworzenie raportów.

Kolumny sterujące

Wszystkie tabele faktów mają kolumnę D_DATE odwołującą się do wymiaru daty. Dla tabel trendów data w tym kontekście wskazuje datę wykonania obrazu stanu danych. Dla innych tabel faktów data odzwierciedla wystąpienie zdarzenia, takiego jak utworzenie rekordu. Obraz stanu danych można oznaczyć, aby określić jego tworzenie ‘codziennie’, ‘raz w tygodniu’ lub ‘raz w miesiącu’ w zależności od wartości zapisanej w tabeli SYS_CONFIG w obszarze konfiguracji. Inne kolumny sterujące obejmują kolumnę REC_DATEIME, która służy jako datownik rekordu w przypadku jego wstawienia lub aktualizacji.

Rekord indykatora wartości NULL

Podobnie jak w operacyjnej składnicy danych tabele wymiarów zawierają wiersz indykatora wartości NULL, który można zidentyfikować poprzez wartość klucza podstawowego równą -1. Odpowiada on wartości NULL w tabelach z ograniczeniami.


Opinia