메뉴 닫기

Amazon SageMaker AI에서 MLflow를 활용한 엔터프라이즈 환경의 서버리스 AI 실험 확장 전략

Amazon SageMaker AI에서 MLflow를 활용한 엔터프라이즈 AI 확장 가이드

머신러닝(ML)과 생성형 AI가 기업의 핵심 기술로 자리 잡으면서, 안정적이고 확장 가능한 인프라 환경은 중요한 경쟁력 요소가 되었습니다. AWS는 이를 지원하기 위해 Amazon SageMaker AI에 MLflow를 통합하고 새로운 서버리스 기능을 선보였습니다. 이 포스팅에서는 SageMaker와 MLflow를 결합했을 때 얻을 수 있는 자동화, 보안, 성능 향상에 대해 살펴보고, 이를 엔터프라이즈 환경에서 어떻게 활용할 수 있는지에 대한 실용적인 가이드를 제공합니다.

MLflow App 기반의 서버리스 기능으로 전환

기존의 MLflow Tracking Server 방식은 관리 복잡성과 자원 설계 이슈로 인해 확장이 어려웠습니다. 반면 Amazon SageMaker AI의 MLflow Apps는 서버리스 아키텍처를 지원하며, 모델 실험, 성능 평가, 관찰 기능(Observability)을 자동으로 관리합니다. 관리자는 인프라에 대한 사전 구성 없이도 ML 프로젝트를 즉시 시작할 수 있습니다.

SageMaker Studio 도메인을 생성하면 기본 MLflow App이 자동으로 설정되며, 사용량에 따라 탄력적으로 스케일링됩니다. 운영 오버헤드를 줄이면서도 높은 가용성과 성능을 유지할 수 있어 엔터프라이즈 환경에 적합합니다.

SageMaker Studio 내 MLflow App 인터페이스 화면

버전 업그레이드는 사전에 지정된 유지 관리 시간에 자동으로 적용되며, MLflow 3.4를 기본으로 지원합니다. 이는 LLM(대규모 언어 모델), 생성형 AI 에이전트, 기타 ML 워크로드의 실험 추적에 최적화되어 있습니다.

IAM과 연동된 간편한 접근 제어

MLflow App은 IAM 기반의 간편한 권한 설정 기능을 제공합니다. sagemaker:CallMlflowAppApi 같은 권한 조합을 통해 실험 생성과 검색, 정보 업데이트 등의 일반 작업을 표준화할 수 있으며, 기업 내 다양한 페르소나와 팀에 일관된 접근 통제가 가능해집니다. 모든 설정은 AWS IAM 정책을 통해 정교한 제어가 가능해 보안성과 거버넌스를 동시에 만족시킬 수 있습니다.

AWS Resource Access Manager로 크로스 계정 공유

머신러닝 인프라를 중앙에서 일괄 관리하면서도 조직 내 여러 계정에 권한을 부여하고 싶은 경우, AWS RAM을 통해 MLflow App을 크로스 계정으로 공유할 수 있습니다. 이를 통해 한 계정에서 MLflow App을 생성·관리하고, 소비 계정의 데이터 과학자는 이를 활용해 실험을 수행할 수 있습니다.

MLflow App 크로스 계정 구조도

이러한 구조는 관리 중앙화와 보안 감사 추적, 통일된 거버넌스를 유지하면서도 높은 확장성과 협업을 가능하게 합니다. 플랫폼 관리자는 하나의 SageMaker 도메인을 통해 전체 AI 실험 환경을 통제할 수 있습니다.

SageMaker Pipelines와의 연동으로 자동화된 MLOps 실현

SageMaker Pipelines는 MLflow와 완벽하게 연동됩니다. 모델의 실험 추적, 지표 관리, 아티팩트 저장 등이 SageMaker Pipeline 워크플로우 내에서 정의되며, 파이프라인 코드 상에서 생성된 실험 이름과 함께 자동으로 MLflow App에 기록됩니다. ML 엔지니어는 GUI 또는 Python SDK를 통해 반복 가능한 ML 워크플로우를 구성하고 자동화할 수 있습니다.

SageMaker Pipeline UI에서의 MLflow 연동 예시

SageMaker 모델 커스터마이징 기능과의 통합

SageMaker에서 제공하는 모델 커스터마이징 작업은 기본적으로 MLflow와 연동되어 진행됩니다. 파인튜닝 작업을 수행할 때, 자동으로 MLflow App에 실험이 생성되며 학습 파라미터, 성능 지표, 결과 아티팩트가 기록됩니다. 사용자 인터페이스에서도 학습 지표를 바로 확인할 수 있고, 보다 정밀한 분석을 위해 MLflow UI로 직접 이동할 수 있습니다.

모델 커스터마이징 관련 지표를 MLflow에 표시하는 예시 화면

결론

Amazon SageMaker AI의 MLflow Apps는 서버리스를 기반으로 한 자동화 기능, IAM 기반 보안 제어, 중앙 집약형 멀티 계정 거버넌스를 제공함으로써 생성형 AI와 대규모 ML 실험 환경에 최적화된 플랫폼입니다. 관리자는 효율적으로 리소스를 운용하고, 사용자는 즉시 실험을 시작할 수 있는 이상적인 AI 인프라 환경을 경험할 수 있습니다. 이를 통해 기업 전체의 AI 도입과 확장이 더욱 용이해지며, 실제 의사결정과 생산성에 직접적인 기여를 할 수 있습니다.

https://aws.amazon.com/blogs/machine-learning/scaling-mlflow-for-enterprise-ai-whats-new-in-sagemaker-ai-with-mlflow/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너