타스크: 데이터 이주 지정
이 타스크는 레거시 데이터 소스를 대상 데이터베이스로 이주하는 방법에 대해 설명합니다.
원칙: 분석 및 디자인
목적
  • 이 타스크의 목적은 해당 범위, 데이터 프로파일 및 데이터 소스와 대상 데이터베이스 간 맵핑을 정의하여 데이터 이주를 지정하는 것입니다.
관계
단계
이주 범위 정의
목적:  이주 범위를 정의합니다.

새 데이터베이스로의 데이터 이주를 계획할 때 가장 먼저 수행해야 하는 작업은 이주 범위를 정의하는 것입니다. 이 작업의 일부 특정 요소는 다음과 같습니다.

  • 이주될 데이터의 소스와 해당 위치 식별
  • 현재 데이터 소스를 사용하는 시스템과 새 데이터베이스를 사용할 시스템 식별
  • 현재 전자적으로 보관되지 않는 데이터와 이 데이터를 새 시스템에 입력하는 방법 식별
  • 이주 후 소스 데이터를 폐기할지 여부 결정. 소스 데이터를 계속 사용하려는 경우 원래 소스와 새 데이터베이스의 데이터 유지보수가 문제가 될 수 있습니다.

또한 소스 데이터의 관련 서브세트를 식별해야 합니다. 데이터 이주 프로젝트는 독립적으로 수행되지 않습니다. 이러한 프로젝트는 레거시 시스템을 전개하거나 바꾸는 프로젝트와 같이 다른 개발 노력에서 파생됩니다. 일반적으로 기존 시스템의 모든 데이터를 이주할 필요는 없으므로 이주해야 하는 히스토리 데이터의 볼륨은 이러한 개발 노력의 요구에서 파생됩니다. 다음은 해당 범위를 결정하는 데 유용한 일부 요소에 대한 아이디어입니다.

  • 이전 시스템의 히스토리 데이터는 새 시스템의 형식으로 변환할 수 없습니다. 예를 들어, 데이터 구조가 변경되어 더 이상 같은 의미를 나타낼 수 없습니다.
  • 이전 히스토리 데이터는 요약 레벨에서만 보관해야 합니다.
  • 세부 히스토리 정보를 보관해야 하는 세금 규정과 같은 필수 요구사항이 있을 수 있지만 특정 기간 동안 반드시 변환해야 하는 것은 아닙니다.

데이터 이주는 새 시스템을 실행하는 프로덕션을 시작하기 직전에 완료하는 것이 바람직합니다. 그러나 휘발성 데이터 또는 대용량 데이터이거나 이주 결과에 대한 유효성 검증 프로세스가 긴 경우 이주된 데이터를 수정해야 할 수 있습니다. 이는 특히 수동 데이터를 수집하여 유효성을 검증한 후 자동 시스템에 입력해야 하는 경우에 해당되며 이러한 경우 데이터 캡처에만도 몇 개월이 소요될 수 있습니다.

이러한 경우 데이터 이주 완료와 프로덕션 실행 시작 중간 시점에서 이주된 데이터를 최신 상태로 유지하기 위한 유지보수 프로시저를 계획하고 정의해야 합니다. 이러한 프로시저는 경제적 측면(일반적으로 장기간 사용되지 않음)과 정확성 측면(변환된 데이터에 오류가 발생해서는 안됨)에서 균형을 이루어야 합니다. 이러한 프로시저는 또한 필요에 따라 제어 및 감사 추적을 통합해야 합니다.

데이터 프로파일링을 통해 데이터 소스 이해
목적:  다른 데이터 소스의 데이터 프로파일 설정

다른 데이터 소스를 식별했으므로 데이터 소스를 분석하여 해당 데이터 프로파일을 설정할 수 있습니다. 데이터 프로파일은 데이터 이주 스펙에 저장될 데이터 컨텐츠, 구조 및 품질에 대한 정보 콜렉션입니다.

데이터 프로파일 설정을 위한 세부 단계는 다음과 같습니다.

정보 수집

데이터 프로파일링의 첫 번째 단계는 데이터 소스에 대해 설명하는 메타데이터를 수집하는 것입니다. 여기에는 소스 프로그램, 사전 또는 저장소 설명, 관련 카탈로그 정보, 이전 프로젝트 문서 및 데이터 의미를 명확히하는 가능한 모든 내용이 포함됩니다. 데이터를 사용하는 시스템을 RUP를 사용하여 개발한 경우, 데이터 모델, 유스 케이스유스 케이스 실현(realization)을 소스로 사용하여 시스템에서의 데이터 사용 방법을 이해할 수 있습니다. 최초 개발자(가능한 경우) 또는 데이터를 관리하는 데이터베이스 관리자를 인터뷰하는 것 또한 도움이 됩니다.

그러나 문서(시스템의 일부로 자동 유지보수되거나 리버스 엔지니어링되는 정보 제외)는 완전히 신뢰할 수 없습니다. 특정 시점에서는 유효한 정보이지만 일반적으로 시간이 지남에 따라 정확성이 떨어집니다. 레거시 시스템은 일반적으로 작성 시 정확히 문서화되지 않았으므로 대부분 해당 문서에 시간에 따른 변경사항이 반영되지 않습니다. 일반적으로 기존 메타데이터는 최신 정보는 아니더라도 데이터 소스 및 데이터 시맨틱에 대해 사용할 수 있는 유일한 정보입니다. 프로파일링 프로세스는 메타데이터와 실제 데이터 간의 불일치를 노출시키며 누락된 정보에서 가장 중요한 파트를 채웁니다.

데이터 소스 분석

데이터 프로파일링의 두 번째 단계는 데이터 소스 맵을 개발하는 것입니다. 이 맵은 데이터 필드의 저장 방법을 보여주며 재정의 처리 및 데이터 구조 내에서 데이터 그룹을 반복하는 규칙을 설정합니다.

데이터 소스가 관계형인 경우, 이 맵은 데이터베이스 스키마에서 직접 추출할 수 있습니다. 이러한 구조는 DBMS로 강제 실행되므로 해당 유효성은 의심하지 않아도 됩니다.

데이터 소스가 관계형이 아닌 경우, 메타데이터와 데이터를 함께 사용해야 정상적인 데이터 양식을 나타낼 수 있습니다. 특히 "과부화" 속성에 주의를 기울여야 합니다. "과부하"는 여러 팩트를 동일한 속성에 저장하는 프로세스입니다.

이 프로파일링 단계가 완료되면 데이터 소스에 대한 전체 샘플 추출을 일반 양식으로 수행하여 데이터 프로파일링 프로세스를 세부적으로 수행할 수 있습니다. 일반적으로 이러한 추출은 이주 컴포넌트의 추출 스크립트로 수행합니다. 이 스크립트는 효과적인 테스트 방법이기도 합니다.

데이터 소스 속성 프로파일링

데이터 프로파일링의 세 번째 단계는 각 속성의 컨텐츠, 도메인 및 데이터 품질을 판별하고 각 속성에 따른 시맨틱을 설정하는 것입니다. 문서화된 메타데이터는 올바르지 않을 수 있으므로 이 오퍼레이션은 실제 소스 데이터로 수행해야 합니다.

이 오퍼레이션을 통해 다음을 식별할 수 있습니다.

  • 특정 용도로 문서화되었으나 다른 용도로 사용된 속성
  • 문서화되었으나 사용하지 않은 속성
  • 속성의 데이터 컨텐츠와 해당 시맨틱 의미 간의 불일치
  • 사용하지 않는 속성(하나의 값만 포함하는 속성)을 식별하는 속성 카디널리티

레거시 시스템은 물론 관계형 시스템 또한 일반적으로 성능 개선을 위해 "정규화 해제" 및 데이터 중복을 사용합니다. 이러한 경우 기본 및 외부 키 지원이 부족한 경우가 많습니다. 즉, 속성 간 기능 종속성을 식별하고 기본 및 외부 키 후보를 찾기 위해 소스 테이블을 분석해야 합니다.

속성 프로파일링이 완료되면 두 가지 다른 레벨에서 검토해야 합니다. 첫 번째 레벨은 속성 이주 여부를 결정하는 것입니다. 속성에 유용한 정보가 포함되지 않거나 데이터 품질이 낮아 이주 시 대상이 손상될 수 있는 경우 속성을 이주하지 않을 수 있습니다. 두 번째 레벨은 이주 시 속성을 제거해야 하는지 여부를 결정하는 것입니다.

프로파일링 프로세스에서 품질 문제가 발견된 경우 일부 데이터 정리 작업을 수행해야 합니다. 즉, 올바르지 않거나 중복되었거나 형식이 적합하지 않거나 불완전한 데이터를 제거하거나 수정해야 합니다. 이 오퍼레이션을 일반적으로 데이터 제거라고 합니다.

데이터 소스와 대상 데이터베이스 간 맵핑 정의
목적:  소스 데이터베이스 요소와 해당 대상 데이터베이스 요소 간 맵핑 설명

이 단계의 두 가지 기본 입력사항은 이전 단계에서 정제한 데이터 프로파일과 대상 데이터베이스의 실제 데이터 모델입니다.

데이터 맵핑에 대한 일반적인 오해는 논리 데이터 모델에 대해 실행할 수 있다는 것입니다. 그러나 소스 데이터는 실제 데이터 형식으로서 이 데이터를 새 실제 데이터 모델로 이주해야 하므로, 논리 데이터 모델을 통한 간접 맵핑을 처리하는 것보다 이러한 실제 양식 간의 맵핑이 보다 실용적인 방법입니다.

처리해야 할 중요한 고려사항은 다음과 같습니다.

  • 동일한 대상 속성의 소스가 여러 개인 경우, 충돌 해결 방법
  • 속성에 대한 소스가 없는 경우, 데이터 제공 방법

이 단계를 수행하려면 rup_database_designer_legacy에서 이주해야 하는 데이터에 대한 세부 정보를 보유하고 있는 비즈니스 디자이너와 소스 및 대상 시스템 모두에 대한 지식을 보유한 시스템 분석가가 함께 작업을 수행해야 합니다.

맵핑은 데이터 이주 스펙에 기록해야 합니다.

이 단계의 두 가지 기본 입력 소스는 이전 단계에서 정제한 데이터 프로파일과 대상 데이터베이스의 실제 데이터 모델입니다.

수동 및 자동 데이터 이주 식별
목적:  자동으로 이주될 수 있는 데이터 소스 파트와 수동으로 이동해야 하는 파트 식별

다양한 데이터 소스의 데이터 프로파일과 데이터 맵핑을 정제한 경우, 자동으로 수행될 수 있는 데이터 이주 파트와 수동 프로시저를 통해 이주해야 하는 파트를 식별해야 합니다.

기법: 데이터 이주 서브시스템 디자인은 자동 데이터 이주를 수행할 컴포넌트를 디자인하는 방법에 대한 정보를 제공합니다.

가능한 경우, 수동으로 변환된 데이터는 새 시스템의 표준 데이터 입력 프로세스를 사용하여 입력해야 합니다. 특별히 빌드된 변환 프로세스가 필요한 경우도 있습니다. 일반 예제는 일반적으로 대화식으로 입력되지만 볼륨이 너무 커서 대화식 입력이 효과적이지 않아 데이터를 대량으로 일괄처리하여 입력하는 경우입니다.

수동으로 이주된 데이터는 데이터 이주 스펙에 포함된 데이터 맵핑 테이블에서 식별할 수 있습니다.