메뉴 닫기

Amazon SageMaker Unified Studio의 새로운 Job 기능으로 데이터 파이프라인 자동화 쉽게 구축하기

데이터 처리와 통합을 더 쉽고 빠르게 – Amazon SageMaker Unified Studio의 새로운 Job 기능 소개

AI와 빅데이터 환경에서 대량의 데이터를 신속하게 처리하는 것은 모든 기업의 공통된 과제입니다. 특히 각기 다른 툴을 오가며 ETL(Extract, Transform, Load) 작업을 수행했던 기존의 방식은 생산성과 운영 효율성에 제약이 있었습니다. 하지만 Amazon SageMaker Unified Studio의 새로운 Job 기능을 이용하면, 이제 개발자는 하나의 통합 환경에서 시각적 도구 또는 코드 기반 도구를 선택해 데이터 파이프라인을 손쉽게 설계하고, 반복 자동화 및 오류 대응 또한 뛰어난 분석력으로 처리할 수 있습니다.

이 글에서는 SageMaker Unified Studio의 새로운 Job 기능 활용 방법과 실제 사용 사례를 소개하고, 시각적 ETL 작업과 코드 기반 작업의 구축 및 실행에 대한 구체적인 배포 가이드를 제공합니다.

SageMaker Unified Studio Job 기능의 핵심 기능

SageMaker Unified Studio의 Job 기능은 AWS Glue나 EMR과 같은 기존 AWS 분석 솔루션과 일관된 사용 경험을 제공하며, 다양한 데이터 엔지니어링 및 AI 모델 학습 워크로드를 하나의 환경에서 관리 가능합니다.

주요 기능

  • 데이터 처리 Job 구성을 시각적으로 설계하거나, Notebook 기반으로 직접 코드 작성 가능
  • 작업의 예약 실행 또는 SageMaker Workflow 기반 자동화 가능
  • 직관적인 UI로 Job 상태 모니터링, 로그 분석 및 성능 메트릭 확인 가능
  • Generative AI 기반 지능형 오류 분석 → 문제 원인 식별과 해결 방안 추천
  • 기존 Visual ETL 흐름을 Job으로 손쉽게 변환 가능

사례: 글로벌 의류 이커머스 기업의 리뷰 분석 데이터 파이프라인 구축

한 글로벌 이커머스 기업은 각 시장의 사용자 리뷰 데이터를 분석해 제품 개선 인사이트를 도출하고자 하였습니다. SageMaker Unified Studio의 Visual ETL Editor를 활용해, 다음과 같은 파이프라인을 구성했습니다.

  1. Amazon S3에서 Parquet 형식의 리뷰 원본 데이터를 불러옴
  2. SQL 기반 데이터 변환을 통해 시장별 별점 분석, 제품별 통계 생성
  3. 분석 결과를 S3에 저장 (Snappy 압축, 리뷰 날짜 또는 마켓별 파티셔닝)

Visual ETL에서 구성된 리뷰 분석 파이프라인 예시

이처럼 드래그 앤 드롭 방식으로 소스 – 변환 – 타겟 흐름을 구성하고, SQL을 삽입하면 직관적인 방식으로 원하는 데이터 분석을 수행할 수 있습니다.

Visual Job 생성 및 실행 기본 절차

  1. [Build] 메뉴에서 [Data processing jobs] → [Create Visual ETL Job] 선택
  2. Amazon S3를 데이터 소스로 추가하고, Parquet 형식 지정
  3. SQL Query 노드를 연결하여 데이터 가공 로직 정의
  4. 결과를 저장할 Amazon S3 타겟 노드 설정 (파티션 키, 저장 모드 지정)
  5. Save → Run을 통해 Job 실행

코드 기반 Job 생성 방법

Visual ETL 대신, PySpark 코드 기반으로 Job을 직접 구성하는 방법도 지원합니다. JupyterLab 환경에서 Notebook을 생성한 후 이를 Git 형태로 저장소에 커밋하고, 코드 Job 생성 메뉴에서 파일을 선택하면 자동으로 Python 스크립트로 변환되어 실행됩니다.

JupyterLab 환경에서 PySpark 기반 notebook 작성 예시

코드 기반 Job은 다음과 같은 시나리오에 적합합니다.

  • 반복 처리되는 복잡한 데이터 로직 구현
  • 모듈화된 ETL 컴포넌트 개발 및 재사용
  • Notebook 기반 머신러닝 파이프라인 작업 통합

Generative AI 기반 지능형 오류 분석 기능

큰 장점 중 하나는 Job 실행 실패 시 제공되는 AI 기반의 자동 문제 분석입니다. 다음과 같은 항목이 자동 분석되어 제공됩니다.

  • Root Cause Analysis: 오류 원인 추적
  • Analysis Insights: 컨텍스트 기반 오류 이해
  • Actionable Recommendations: 단계별 해결책 제시

AI 기반 문제 분석 및 해결 가이드 제공 화면

이는 특히 Spark 사용 경험이 적은 사용자도 원활히 대규모 Job을 운영할 수 있도록 지원합니다. 다양한 Job 실행 내역을 기반으로 비교 분석, 성능 튜닝 등도 가능해 결과적으로 데이터 활용의 품질과 속도가 크게 향상됩니다.

Job 조회 및 실행 이력 관리

시각적 Job과 코드 기반 Job 모두 Data processing jobs 페이지에서 확인 가능하며, 실행 단위로 필터 및 비교, 로그 확인, 리소스 추적 가능

각 Job의 개별 실행 이력 정보 확인 화면

정리 및 비용 절감을 위한 리소스 정리 방법도 제공됩니다.

마무리

SageMaker Unified Studio에 새롭게 추가된 Job 기능은 데이터 분석 및 통합 작업을 더욱 자동화하고 일관된 방식으로 운영할 수 있는 강력한 솔루션입니다. 시각적 GUI와 코드 기반 환경을 모두 지원하고, Generative AI를 활용한 자동 오류 분석도 가능한 만큼 엔지니어, 분석가, 데이터 과학자 모두에게 유용한 기능입니다.

이제 AWS의 다양한 데이터 분석 서비스와 비교해도 손색없는 통합 환경에서 더 빠르고 효율적인 데이터 처리 자동화를 시작해보세요.

https://aws.amazon.com/blogs/big-data/introducing-jobs-in-amazon-sagemaker/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너