데이터 파이프라인 자동화를 위한 Amazon SageMaker Unified Studio의 시각적 워크플로우 활용 가이드
소개
데이터 엔지니어와 분석가가 데이터 파이프라인과 보고서를 최신 상태로 유지하기 위해선 반복적이고 복잡한 처리 작업을 원활하게 자동화하는 것이 중요합니다. 특히 Apache Airflow와 같은 도구로의 통합을 통해 다양한 데이터 처리 작업을 구성하려면 높은 기술 이해도가 요구되었습니다. 그러나 이제는 Amazon SageMaker Unified Studio에서 제공하는 새로운 "시각적 워크플로우 빌더" 기능을 통해 코드 없이 자동화된 데이터 통합과 실행이 가능해졌습니다. 본 글에서는 SageMaker Unified Studio를 활용하여 시각적으로 ETL 파이프라인을 구성하고 워크플로우를 자동화하는 방법과 실 사례를 공유합니다.
SageMaker Unified Studio 시각적 워크플로우 기능 개요
Amazon SageMaker Unified Studio는 AI 및 데이터 분석 환경을 통합한 단일 플랫폼입니다. 사용자들은 이 환경 안에서 시각적 인터페이스를 통해 다음과 같은 구성요소를 쉽게 생성하고 관리할 수 있습니다.
- 데이터 처리 작업(Data Processing Job)
- 쿼리북(QueryBook)
- 노트북(Notebook)
- 워크플로우(Workflow)
특히 새로운 시각적 워크플로우 빌더는 복잡한 DAG 코드를 직접 작성하지 않아도 되는 큰 장점을 제공하여, Python 경험이 적은 사용자도 쉽게 자동화된 데이터를 연동할 수 있게 해줍니다.
아키텍처 예시
시나리오로는 서적, 장난감, 보석 등을 판매하는 가상의 이커머스 기업이 있으며, 고객 리뷰 데이터를 기반으로 '도움이 된 상위 10명의 고객'을 선정하는 분석 작업을 설명합니다. 아래는 해당 파이프라인 아키텍처입니다.
주요 구성 및 활용 절차
- 데이터 처리 작업 생성
SageMaker Studio 내 시각적 ETL을 선택하여 Amazon S3에서 데이터를 불러오고 조건 필터를 적용한 후 결과를 다시 S3로 저장합니다. 구성 노드들은 S3 소스 → 필터 → 결과 저장 S3 타겟으로 연결됩니다. 이때, 포맷은 Parquet, 압축은 Snappy, 파티션은 marketplace 기준으로 설정하였습니다.
- 쿼리북(QueryBook) 생성
테이블 파티션 인식을 위해 SQL 쿼리 MSCK REPAIR TABLE을 포함한 쿼리북을 생성하고 Draft로 저장합니다. 이 쿼리는 워크플로우에 의해 자동 실행되도록 설계합니다.
- 노트북 생성 및 시각화
JupyterLab을 통해 분석용 노트북을 만들고 PyAthena, pandas 라이브러리를 이용해 쿼리를 통해 S3로부터 유의미한 상위 고객 정보를 시각화합니다.
- 시각적 워크플로우 구성
SageMaker Studio 내 워크플로우 빌더에서 Drag-and-Drop 방식으로 다음 구성요소들을 순차적으로 배치합니다.
- 데이터 처리 작업
- 쿼리북
- 노트북
각각의 구성 요소는 Browse 기능을 통해 생성된 객체를 선택 후 연결하며 자동으로 실행 순서를 구성합니다.
- 워크플로우 실행 및 확인
워크플로우를 실행 후 Run ID를 선택하면 각 Task의 실행 상태 및 결과를 확인할 수 있습니다. 특히 노트북 결과물에는 상위 10명의 영향력 있는 고객 리스트가 나타납니다.
비교와 활용 효과
직접 Python으로 DAG를 코딩할 경우 많은 개발 시간이 소요되지만, SageMaker 시각적 워크플로우는 Drag-and-Drop 방식으로 설계하고 자동으로 Airflow 호환 Python DAG로 전환해 줍니다. 이는 빠른 배포(Deployment)와 반복 업무 자동화의 장점으로 연결됩니다.
또한 Amazon MWAA와도 통합되어 스케줄링 및 모니터링 기능이 강화되며, 클라우드 리소스 사용 최적화 및 협업 환경에서도 큰 이점을 가집니다.
정리 및 마무리
Amazon SageMaker Unified Studio의 시각적 워크플로우 기능은 데이터 통합, 전처리, 분석 그리고 보고 자동화를 위한 현대적이며 효율적인 방법을 제공합니다. 복잡한 코드 작성 없이 바로 배포 및 실행이 가능하며, 다양한 활용(데이터 파이프라인 구성, 리포트 자동화 등)에 적합합니다. 데이터 엔지니어 또는 분석가라면 지금 바로 SageMaker Unified Studio에서 시각적 워크플로우 기능을 경험해 보시기 바랍니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기