Rational Insight 데이터 웨어하우스 모델

IBM® Rational® Insight 데이터 웨어하우스(RIDW)는 다양한 작업 시스템에서 수집된 데이터를 분석 보고가 용이한 형식으로 저장하고, 조회 최적화, 다차원 분석 및 히스토리 동향에 필요한 엔진을 제공하는 컴포넌트입니다. 데이터 구조는 일반적으로 정규화된 형식으로 정보를 저장하는 실시간 트랜잭션 시스템의 데이터 구조와 다릅니다. 수신 데이터가 여러 단계를 통과하면서 정규화된 테이블에 임시로 저장되는 동안 최종적으로 사용되는 형식은 스타 스키마입니다. 이 섹션에서는 RIDW의 기본 데이터 구조에 대해 설명합니다.

데이터 스토리지 영역

RIDW에는 세 개의 데이터 스토리지 영역이 있습니다.

구성 영역

이 영역은 제품 데이터 소스 및 달력과 같은 엔티티에 대한 중요한 구성 정보를 저장합니다. 구성 영역은 웨어하우스의 참조 설정값을 포함하며, 다음과 같은 네 개의 기본 테이블로 구성됩니다.
표 1.
테이블 이름 테이블 용도
SYS_CONFIG 시스템 구성 정보 포함(예: 날짜 차원 달력 유형)
ETL_INFO ETL(Extract, Transform and Load) 구성 정보 포함(예: ETL 스케줄(매일, 매주 또는 매월))
여러 데이터 소스와의 호환성을 위해 RIDW는 ISO와 그레고리안 날짜 유형을 모두 지원합니다. 웨어하우스 설치 시와 ETL 트랜잭션을 실행하기 전에 구성 설정값을 선택할 수 있습니다.

작업 데이터 스토어

이 영역에서는 ETL 프로세스가 수신, 통합 및 저장되는 동안 정보가 데이터 소스에서 수집됩니다. RIDW는 다음 제품을 지원합니다. IBM Rational ClearQuest®(Enterprise 및 ALM 스키마), IBM Rational ClearCase®, IBM Rational Requisite® Pro, IBM Rational Team Concert, IBM Rational Test Manager, IBM Rational Quality Manager, IBM Rational Team Manager 및 Microsoft® Project. 여러 원본 간의 일관성을 유지하기 위해 데이터가 정리되고 처리됩니다. RIDW 데이터베이스 디자인 원칙은 다음을 확인합니다.
  • 소스 작업 시스템에 대한 데이터 추적성
  • 주제 기반 요소 그룹화
  • 데이터 소스와 독립적인 통합 정규화 영역 표시
제어 열
ETL 프로세스는 나중에 RIDW에서 사용되는 제어 정보가 있는 일부 열을 추가합니다. 예를 들어, 다음과 같은 세 개의 필수 열은 ID 정보를 제공합니다.
  • EXTERNAL_KEY1 - 정수인 경우, 자연 키를 저장함
  • EXTERNAL_KEY2 - varchar 유형인 경우, 자연 키를 저장함
  • SOURCE_ID - 데이터 소스의 GUID 값을 저장함
일반 사용자는 디자인 단계(Phase) 동안 GUID가 데이터 소스에 지정되므로 이를 구성할 필요가 없습니다.

추가적으로 두 개의 열(ISSOFDELETED 및 REC_DATETIME)이 추가됩니다.

ISSOFDELETED는 실제로 원본 소스에서 삭제된 레코드를 표시하는 데 사용됩니다. 레코드가 삭제된 경우, 해당 값은 1로 설정되어야 하며 삭제되지 않은 경우에는 0이어야 합니다.
주: 정규화된 영역의 레코드는 팩트 및 차원 영역의 측정값과 링크되어 있으므로 실제로 삭제하지 말아야 합니다.
REC_DATETIME은 레코드가 삽입되고 이후 ETL이 갱신하여 레코드를 갱신해야 할 때마다 데이터베이스가 값을 설정하는 시간소인 열입니다.

대리 키

대리 키는 ETL 프로세스에서 작성되는 1차 키입니다. 이러한 키는 서로 다른 소스의 1차 키 형식 간의 차이점을 겹쳐쓰는 데 필요합니다. 추출된 모든 테이블에서 RIDW는 자신의 1차 키를 작성하고 원본 키를 EXTERNAL_KEY1 또는 EXTERNAL_KEY2 열에 보관합니다. 대리 키는 0부터 시작하는 정수입니다.

분류 테이블

이 테이블은 프로젝트, 요청, 요구사항, 타스크, 활동 및 컴포넌트와 같이 일반적으로 사용되는 아티팩트를 나타냅니다. 이러한 테이블은 "CLASSIFICATION" 단어를 포함하고 있는 해당 이름으로 구분이 가능합니다. 모든 분류 테이블에는 아티팩트에 대한 일반적인 이해를 나타내는 사전 정의된 레코드 유형이 있습니다. 추출된 테이블을 분류 테이블로 변환하는 작업은 ETL 프로세스에 의해 관리됩니다.

더미 레코드

모든 분류 및 아티팩트 테이블에는 1차 키 값인 -1로 식별 가능한 더미 행이 있습니다. 더미 행은 정의된 참조 제한조건에 대한 값이 널(null)인 경우 데이터 정규화를 지원합니다.

팩트 및 차원 영역

팩트 및 차원 영역은 스타 스키마 디자인을 구현하는데, 이는 팩트, 차원 및 히스토리 추적 테이블 세트입니다. 팩트 테이블에는 특정 비즈니스 프로세스의 '팩트' 또는 측정값이 있습니다. 예를 들어, 프로젝트 관리가 측정하려는 프로세스인 경우, 해당 팩트 테이블에는 요구사항의 수가 포함될 수도 있습니다. 차원 테이블에는 데이터 웨어하우스 조회를 수행할 때 데이터를 제한하고 그룹화하는 데 사용되는 속성이 있습니다. 요구사항의 수가 팩트 테이블인 경우에는 요구사항 유형을 차원으로 사용하는 것이 좋습니다.

디자인 규칙

차원 테이블 이름은 "D_"로 시작하며, 보고서를 식별하기 위한 대리 키가 있습니다. 팩트 테이블 이름은 "F_"로 시작하지만, 팩트 테이블에서 측정값에 대한 히스토리 분석을 제공하는 테이블은 "H_"로 시작합니다. 일반적으로 1차 키는 측정값의 대리 키와 측정값에 컨트리뷰트하는 아티팩트의 대리 키와의 조합입니다. 이름에 "F_C_"가 포함된 팩트 테이블은 원본 동향 팩트 테이블과 동등하며, 다만 시간에 따른 동향을 알 수 있도록 데이터를 누적하지 않고 데이터의 최근 스냅샷만 저장합니다. 데이터 마트도 자세한 내용을 표시하거나 목록 보고서 제공을 위해 드릴다운할 용도로 작업 데이터 스토어 창을 제공하는 보기 세트로 구성됩니다.

제어 열

모든 팩트 테이블에는 날짜 차원 D_DATE를 참조하는 열이 있습니다. 동향 테이블의 경우 이 컨텍스트의 날짜는 데이터 스냅샷을 저장한 날짜를 표시합니다. 다른 팩트 테이블의 경우 날짜는 레코드 작성 등의 이벤트가 발생한 날짜를 반영합니다. 데이터 스냅샷은 구성 영역의 SYS_CONFIG 테이블에 저장된 값에 따라 ‘일별', ‘주별' 또는 ‘월별' 단위를 나타내도록 태그 지정할 수 있습니다. 다른 제어 열에는 레코드 삽입 또는 갱신의 레코드 소인으로 사용되는 REC_DATEIME 열이 있습니다.

널(null) 표시기 레코드

작업 데이터 스토어에서처럼 차원 테이블에는 1차 키 값 -1로 식별 가능한 널(null) 표시기 행이 있습니다. 이는 제한조건이 있는 테이블의 널값을 나타냅니다.


피드백