메뉴 닫기

아마존 세이지메이커를 활용한 오프라인 피처 스토어 구축

아마존 세이지메이커를 활용한 오프라인 피처 스토어 구축

데이터 과학 작업에서 머신러닝(ML) 피처를 관리 및 구축하는 것은 복잡한 이슈입니다. 여러 팀이 분산된 데이터셋과 변환을 따로 관리할 때, 협업의 어려움이 발생합니다. 이러한 문제를 해결하기 위해 아마존 세이지메이커는 SageMaker Unified Studio와 SageMaker Catalog를 제공합니다. 특히, 오프라인 피처 스토어는 모델 훈련과 검증에 사용되는 역사적 피처 데이터를 관리하는 데 중점을 둡니다.

SageMaker Unified Studio와 SageMaker Catalog를 사용한 구현 가이드

오프라인 피처 스토어의 핵심 기능은 트랜잭션 일관성을 위한 Apache Iceberg, 세부적인 접근 제어를 위한 AWS Lake Formation 및 시각화 도구와 코드 기반 데이터 엔지니어링을 지원하는 Amazon SageMaker Studio와의 통합입니다. 아래 가이드에서는 SageMaker Catalog를 사용하여 SageMaker Unified Studio 도메인에서 오프라인 피처 스토어를 구현하는 방법에 대해 설명합니다.

아키텍처 개요

이 솔루션은 SageMaker Unified Studio 도메인과 SageMaker Catalog를 통합하여 확장 가능하고 안전한 피처 관리 환경을 제공합니다. 다음 이미지에서는 관리자가 고품질, 재사용 가능한 피처 테이블을 만들고, 게시하며, 사용할 수 있도록 하는 통합 환경을 보여줍니다.

SageMaker 아키텍처 구성도

워크플로우 및 사례

  1. 관리자는 AWS CloudFormation 템플릿 및 콘솔을 사용하여 환경을 설정합니다.
  2. 데이터 엔지니어는 데이터 프로젝트를 열어 비주얼 ETL 도구 또는 데이터 처리 작업을 사용하여 피처 파이프라인을 구축합니다.
  3. 데이터 과학자는 피처 테이블을 찾아 모델 개발에 활용합니다.

결론

Amazon SageMaker Unified Studio와 SageMaker Catalog를 통해 오프라인 피처 스토어를 구축하면, 기업은 통합된 안전한 ML 자산 관리와 협업을 촉진할 수 있습니다. 이를 통해 데이터 정확성을 높이고 모델의 성능을 개선할 수 있습니다. 이번 기회를 통해 SageMaker Unified Studio 도메인을 설정하고 첫 번째 피처 데이터를 게시하여 ML 자산의 잠재력을 다각도로 활용하세요.

[1] https://aws.amazon.com/blogs/machine-learning/build-an-offline-feature-store-using-amazon-sagemaker-unified-studio-and-sagemaker-catalog/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너