목적:
|
다른 데이터 소스의 데이터 프로파일 설정
|
다른 데이터 소스를 식별했으므로 데이터 소스를 분석하여 해당 데이터 프로파일을 설정할 수 있습니다. 데이터 프로파일은 데이터 이주 스펙에 저장될 데이터 컨텐츠, 구조 및 품질에 대한 정보 콜렉션입니다.
데이터 프로파일 설정을 위한 세부 단계는 다음과 같습니다.
데이터 프로파일링의 첫 번째 단계는 데이터 소스에 대해 설명하는 메타데이터를 수집하는 것입니다. 여기에는 소스 프로그램, 사전 또는 저장소 설명, 관련 카탈로그 정보, 이전 프로젝트 문서 및 데이터 의미를
명확히하는 가능한 모든 내용이 포함됩니다. 데이터를 사용하는 시스템을 RUP를 사용하여 개발한 경우, 데이터 모델,
유스 케이스 및 유스
케이스 실현(realization)을 소스로 사용하여 시스템에서의 데이터 사용 방법을 이해할 수 있습니다. 최초 개발자(가능한 경우) 또는 데이터를 관리하는 데이터베이스 관리자를 인터뷰하는 것 또한 도움이
됩니다.
그러나 문서(시스템의 일부로 자동 유지보수되거나 리버스 엔지니어링되는 정보 제외)는 완전히 신뢰할 수 없습니다. 특정 시점에서는 유효한 정보이지만 일반적으로 시간이 지남에 따라 정확성이 떨어집니다. 레거시 시스템은
일반적으로 작성 시 정확히 문서화되지 않았으므로 대부분 해당 문서에 시간에 따른 변경사항이 반영되지 않습니다. 일반적으로 기존 메타데이터는 최신 정보는 아니더라도 데이터 소스 및 데이터 시맨틱에 대해 사용할 수
있는 유일한 정보입니다. 프로파일링 프로세스는 메타데이터와 실제 데이터 간의 불일치를 노출시키며 누락된 정보에서 가장 중요한 파트를 채웁니다.
데이터 프로파일링의 두 번째 단계는 데이터 소스 맵을 개발하는 것입니다. 이 맵은 데이터 필드의 저장 방법을 보여주며 재정의 처리 및 데이터 구조 내에서 데이터 그룹을 반복하는 규칙을 설정합니다.
데이터 소스가 관계형인 경우, 이 맵은 데이터베이스 스키마에서 직접 추출할 수 있습니다. 이러한 구조는 DBMS로 강제 실행되므로 해당 유효성은 의심하지 않아도 됩니다.
데이터 소스가 관계형이 아닌 경우, 메타데이터와 데이터를 함께 사용해야 정상적인 데이터 양식을 나타낼 수 있습니다. 특히 "과부화" 속성에 주의를 기울여야 합니다. "과부하"는 여러 팩트를 동일한 속성에 저장하는
프로세스입니다.
이 프로파일링 단계가 완료되면 데이터 소스에 대한 전체 샘플 추출을 일반 양식으로 수행하여 데이터 프로파일링 프로세스를 세부적으로 수행할 수 있습니다. 일반적으로 이러한 추출은 이주 컴포넌트의 추출 스크립트로
수행합니다. 이 스크립트는 효과적인 테스트 방법이기도 합니다.
데이터 프로파일링의 세 번째 단계는 각 속성의 컨텐츠, 도메인 및 데이터 품질을 판별하고 각 속성에 따른 시맨틱을 설정하는 것입니다. 문서화된 메타데이터는 올바르지 않을 수 있으므로 이 오퍼레이션은 실제 소스
데이터로 수행해야 합니다.
이 오퍼레이션을 통해 다음을 식별할 수 있습니다.
-
특정 용도로 문서화되었으나 다른 용도로 사용된 속성
-
문서화되었으나 사용하지 않은 속성
-
속성의 데이터 컨텐츠와 해당 시맨틱 의미 간의 불일치
-
사용하지 않는 속성(하나의 값만 포함하는 속성)을 식별하는 속성 카디널리티
레거시 시스템은 물론 관계형 시스템 또한 일반적으로 성능 개선을 위해 "정규화 해제" 및 데이터 중복을 사용합니다. 이러한 경우 기본 및 외부 키 지원이 부족한 경우가 많습니다. 즉, 속성 간 기능 종속성을
식별하고 기본 및 외부 키 후보를 찾기 위해 소스 테이블을 분석해야 합니다.
속성 프로파일링이 완료되면 두 가지 다른 레벨에서 검토해야 합니다. 첫 번째 레벨은 속성 이주 여부를 결정하는 것입니다. 속성에 유용한 정보가 포함되지 않거나 데이터 품질이 낮아 이주 시 대상이 손상될 수 있는
경우 속성을 이주하지 않을 수 있습니다. 두 번째 레벨은 이주 시 속성을 제거해야 하는지 여부를 결정하는 것입니다.
프로파일링 프로세스에서 품질 문제가 발견된 경우 일부 데이터 정리 작업을 수행해야 합니다. 즉, 올바르지 않거나 중복되었거나 형식이 적합하지 않거나 불완전한 데이터를 제거하거나 수정해야 합니다. 이 오퍼레이션을
일반적으로 데이터 제거라고 합니다.
|