데이터 계보(Data Lineage) 수집 자동화를 위한 SageMaker 활용 가이드
데이터 거버넌스를 성공적으로 구축하기 위해 핵심적으로 필요한 것은 데이터 흐름과 계보(lineage)를 명확하게 추적하고 시각화하는 것입니다. 특히 다양한 데이터 파이프라인 도구에서 생성된 데이터를 통합적으로 관리하려면 계보 정보의 중앙화가 필수적입니다. 이번 포스팅에서는 Amazon SageMaker에서 OpenLineage 프로토콜을 활용해 dbt, Apache Airflow, Apache Spark와 같은 주요 도구로부터 데이터 계보를 수집하고 자동화하는 방법, 배포 가이드와 사례를 정리해보겠습니다.
SageMaker Unified Studio 및 SageMaker Catalog를 기반으로 하는 이 구조는 Amazon DataZone과 통합되어 데이터 계보 및 AI 개발 환경을 보다 높이는데 기여합니다.
데이터 계보 수집 자동화 아키텍처 개요
Amazon SageMaker는 OpenLineage와 호환되는 API를 지원함으로써 데이터 계보 이벤트를 쉽게 수집할 수 있습니다. SageMaker와 DataZone 간 계보 이벤트 전달을 위해 HTTP Proxy 아키텍처 패턴이 동원되며, 주요 구성 요소는 다음과 같습니다.
- Amazon API Gateway가 데이터 전송을 위한 HTTP 엔드포인트 역할 수행
- Amazon SQS가 순서를 보장하지 않는 이벤트 버퍼 처리
- AWS Lambda가 이벤트를 처리하고 SageMaker로 전달
- 필요시 IAM 및 CloudWatch를 통해 인증 및 로깅 수행
활용 방법 예시 1: AWS Glue 4.0에 OpenLineage 설정하기
AWS Glue는 버전 4.0에서도 OpenLineage를 통한 계보 수집이 가능합니다. 이를 위해 Spark용 OpenLineage 패키지를 다운로드하고 S3에 저장한 후 Glue 작업에 JAR 패키지를 참조로 추가합니다.
또한 job parameters에 사용자 정의 속성으로 아래와 같은 설정을 추가해 계보 이벤트를 OpenLineage 프록시로 전송할 수 있습니다.
작업 실행 후 해당 데이터셋은 SageMaker Unified Studio 및 Amazon DataZone 내에서 원천 데이터의 흐름을 따라 완전한 계보 정보를 제공합니다.
활용 방법 예시 2: dbt에 OpenLineage 설정하기
dbt는 Redshift, EMR, Glue 등 다양한 플랫폼 위에서 동작할 수 있는 데이터 파이프라인 솔루션입니다. 프로젝트 루트에 openlineage.yml 파일을 만들고 HTTP Proxy 엔드포인트를 설정합니다. 이후 dbt-ol run 명령어를 사용하면 계보 이벤트가 자동으로 전송됩니다.
활용 방법 예시 3: Airflow에 OpenLineage 설정하기
Airflow는 대규모 데이터 파이프라인에 적합한 오케스트레이션 도구입니다. Amazon MWAA 환경에서 requirements.txt에 OpenLineage 패키지를 추가하고, Airflow 설정에 transport 옵션을 HTTP Proxy로 지정합니다.
파이프라인 실행 시, 계보 이벤트가 자동으로 프록시를 통해 전송되며 SageMaker 및 DataZone에서 시각화됩니다.
배포 및 구현 시 고려 사항
테스트 환경에서는 기본 구현된 proxy 패턴을 바로 활용할 수 있지만, 실제 운영환경에서는 다음 사항을 고려해 보완이 필요합니다.
- API Gateway 접근 제어 및 인증 적용 필수
- Lambda 함수 내 이벤트 포맷 변환, 오류 처리 로직 구현
- SQS FIFO 큐 활용을 통한 이벤트 순서 유지
또한 OpenLineage 1.33.0 이후 버전부터는 SageMaker 또는 DataZone으로 직접 이벤트를 전송할 수 있는 사용자 정의 전송 커넥터도 지원되어 요구사항에 따라 proxy 없이 바로 연결도 가능합니다.
결론
Amazon SageMaker의 OpenLineage 호환 기능을 활용하면 주요 데이터 처리 툴로부터 데이터 계보를 효율적으로 수집하고 통합 거버넌스를 실현할 수 있습니다.
이러한 자동화된 계보 수집은 데이터 품질 검증, 책임 추적, AI/분석 모델의 신뢰 향상에 중요한 역할을 하며, 데이터 기반 문화로 전환하는 첫 걸음이 될 것입니다.
지금 SageMaker와 함께 계보 기반의 데이터 자산 관리를 시작해보세요.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기