Amazon SageMaker와 Collibra를 활용한 메타데이터 통합 거버넌스 가이드
서론
클라우드 기반의 인공지능 및 데이터 플랫폼을 운영하는 조직이 증가하면서, 데이터 자산 간 메타데이터 정합성과 일관성을 유지하는 것은 필수 요건이 되었습니다. 특히 생성형 AI 모델과 같은 지능형 시스템이 비즈니스의 중심이 되어가면서, 다양한 툴 간에 메타데이터를 자동으로 통합하고 통제하는 기능은 조직의 성공 여부를 좌우할 수 있습니다. 이번 블로그에서는 Amazon SageMaker Catalog와 데이터 거버넌스 플랫폼 Collibra를 연동하여 메타데이터 통합과 자동화를 구현하는 방법에 대해 자세히 안내드립니다.
본론
메타데이터 관리 및 활용 과제
전통적인 데이터 거버넌스 플랫폼에서는 메타데이터가 시스템 간 일관되게 관리되지 않으면, 동일 데이터 자산에 대해 다른 정의를 가지거나, 접근 권한이 중복되는 등의 문제가 발생하게 됩니다. 이를 해결하기 위해 AWS는 Collibra와 협력하여 Amazon SageMaker Catalog와 Collibra 간 양방향 메타데이터 동기화 및 승인 흐름을 자동화하는 통합 솔루션을 개발하였습니다.
주요 기능 요약
- 메타데이터 동기화: 비즈니스 용어, 설명, 관계, 데이터 자산에 대한 분류 및 정책을 양 방향으로 자동 동기화
- 승인 및 접근 흐름 통합: 사용자는 Collibra 또는 SageMaker Catalog에서 데이터 접근 요청을 하고, 승인이 완료되면 AWS 내에서 자동으로 접근 권한이 부여됨
- 자동화된 API 활용: Collibra 및 Amazon SageMaker의 내장 API를 활용한 자동화된 메타데이터 활용 및 배포
운영 환경 설정
통합 솔루션을 배포하기 위한 전제 조건은 다음과 같습니다. Amazon S3, AWS Secrets Manager, Collibra Edge site, SageMaker 도메인, Redshift 또는 Glue 데이터베이스, SageMaker 프로젝트 두 개(소비자/제공자)가 필요합니다. 자세한 구현과정은 AWS CloudFormation 템플릿을 기반으로 자동화되어 있습니다.
Collibra 설정 및 운영 모델 구성
Collibra 환경에서는 AWS 프로젝트와 사용자 유형을 추가하고, 새로운 속성과 관계 유형을 구성해야 합니다. 이후 데이터 접근 요청을 표현하는 Subscription Request 유형도 정의합니다. 필요한 워크플로우와 승인 흐름도 import하여 활성화해야 합니다.
AWS 환경 설정 및 CloudFormation 배포
설치를 간소화하기 위해 AWS는 CloudFormation 템플릿을 제공하며, 이 템플릿을 활용해 Lambda 함수, 역할(Role), 권한 및 설정 값 등을 자동 배포할 수 있습니다. 설정 시 SageMaker 프로젝트 대응 관계, Collibra 워크플로우 ID, API 시크릿 값 등을 입력해야 하며, YAML 기반으로 구성되어 있습니다.
메타데이터 활용 및 자동 동기화
메타데이터의 동기화는 기술 메타데이터(테이블, 컬럼, 타입 등)와 비즈니스 메타데이터(비즈니스 용어, 설명, 정책 등) 두 가지로 나뉘며, Collibra와 SageMaker 간 5분 주기로 자동 동기화됩니다.
또한 기술 메타데이터는 Collibra Edge를 통해 AWS Glue나 Amazon Redshift에서 가져오며, 사업 용어는 자동으로 SageMaker에 입력됩니다. 개인 식별 정보(PII)와 같은 민감정보의 분류까지도 정책으로 연결해 관리할 수 있습니다.
자동화된 구독 요청 및 승인 흐름
데이터 사용자는 Collibra 또는 SageMaker Unified Studio에서 원하는 데이터셋을 검색하고, 구독 요청을 생성할 수 있습니다. 이 요청은 자동으로 비즈니스 담당자에게 전달되고, 승인이 완료되면 AWS 시스템 내부에서 자동으로 접근 권한이 배포됩니다. 전체 흐름은 워크플로우 기반으로 관리되며 중앙화된 이력 추적이 가능합니다.
SageMaker와 Collibra 간 통합 거버넌스의 장점
- 메타데이터 자동화 및 배포 가이드에 따른 관리 효율성 향상
- 비정형 업무 최소화 및 데이터 품질 향상
- DevOps 및 MLOps 환경과 자연스럽게 결합되는 자동화된 접근 흐름
- 팀 간 용어 정의 통일로 협업의 일관성 강화
결론
이 통합 솔루션은 AI 및 분석 데이터를 위한 거버넌스 환경을 현대적으로 개선하며, 거버넌스와 자동화를 하나의 워크플로우로 연결합니다. API 기반으로 구성되었기 때문에 다양한 환경에 빠르게 확장하여 적용할 수 있으며, AWS와 Collibra의 엔터프라이즈 AI 기술을 활용한 베스트 프랙티스로 추천드립니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기