Amazon SageMaker HyperPod의 자동 확장 도입과 활용 방법

아마존 SageMaker HyperPod에서의 자동 확장(Auto Scaling)의 도입과 활용 방법

머신러닝 모델을 대규모로 운영하려면, 예측할 수 없는 부하와 비용 간의 균형 및 자동 자원 관리가 매우 중요합니다. 이에 따라 AWS는 Amazon SageMaker HyperPod에 Karpenter 기반의 자동 확장(Auto Scaling) 기능을 도입했습니다. 이제 사용자는 복잡한 설정 없이 고성능 GPU 클러스터를 자동화 기반으로 동적으로 확장 및 축소할 수 있어, 안정적인 서비스 수준 확보는 물론 비용 절감까지 가능하게 되었습니다.

자동 확장 기능의 핵심과 실제 활용 사례

이번에 새롭게 공개된 SageMaker HyperPod의 자동 확장 기능은 AWS가 관리하는 Karpenter 컨트롤러를 기반으로 하여, 개발자가 노드 자동 확장을 직접 구성하거나 유지보수할 필요 없이 손쉽게 확장 기능을 구현할 수 있도록 설계되었습니다. 특히 실시간 추론 워크로드의 증가에 대응하면서도 최소 비용을 지향하는 유연한 인프라 구현이 가능합니다.

주요 활용 사례로는 대형 언어 모델을 포함한 생성형 AI(GenAI) 추론 시스템을 구축하고 있는 Perplexity, HippocraticAI, H.AI, Articul8 기업이 있으며, 이들은 대량의 트래픽에도 빠르게 GPU 리소스를 확장할 수 있는 유연한 오토 스케일링 아키텍처를 SageMaker HyperPod 기반으로 구현하고 있습니다.

자동 확장의 주요 기능은 다음과 같습니다.

SageMaker에서 관리하는 Karpenter 수명 주기: 설치 및 유지 관리를 AWS가 자동화
Just-in-time 프로비저닝: 파드가 대기 상태에 진입하면 필요한 컴퓨팅 자원을 즉시 할당
스케일 투 제로: 유휴 상태일 때는 노드를 0으로 줄여 불필요한 비용 제거
워크로드 기반 인스턴스 타입 선정: 최적의 리소스 구성을 자동 도출
노드 통합 자동화: 사용률이 낮은 노드를 통합하여 클러스터 최적화
내결함성 통합: 장애 복구와 서브넷 가용성 자동 감지

아래 이미지에서 Karpenter 기반 SageMaker HyperPod 자동 확장 아키텍처를 확인할 수 있습니다.

SageMaker HyperPod 자동 확장 아키텍처 다이어그램

실행 절차: 구성 및 배포 가이드

SageMaker HyperPod에서 자동 확장 기능을 활성화하고 Karpenter를 연동하려면 다음과 같은 절차를 따릅니다.

SageMaker 콘솔에서 HyperPod EKS 클러스터 생성
- “Orchestrated on Amazon EKS”, “Custom Setup”, “Use continuous provisioning” 등을 선택
IAM 역할 생성 및 권한 부여
Boto3 혹은 AWS CLI를 통해 Karpenter 자동 확장 설정 적용
Karpenter를 위한 커스텀 리소스 생성: HyperpodNodeClass 및 NodePool 생성
- 노드풀에서는 특정 인스턴스 타입, 사용 가능 지역, 라벨 등을 정의
예제 워크로드 배포 및 인플레이션: Kubernetes 파드 스케일링 확인

Karpenter에 의해 확장된 Kubernetes 노드 확인 화면

고급 자동 확장의 구현: KEDA와의 통합

SageMaker HyperPod 자동 확장 기능은 Karpenter와 Kubernetes Event-driven Autoscaling(KEDA)을 함께 사용할 때 진정한 자동화의 유연함을 발휘합니다. 대시보드 지표, SQS 큐 길이, CloudWatch 로그 등 다양한 신호로 파드 수를 조정하는 KEDA와 결합 시, Karpenter는 리소스 필요량에 맞춰 노드를 자동으로 증설 또는 제거합니다.

예를 들어 아래 KEDA ScaledObject 구성에 따라, ALB 요청량을 기반으로 추론 파드 개수를 자동 조정할 수 있습니다.

메트릭 기반 조정: AWS CloudWatch 연동
안정성 유지: cooldown 설정 및 최소/최대 파드 수 제한
비용 최적화: 리소스 요청/한계 설정으로 스케일링 효율 확보

이 아키텍처는 요구량 변화에 적응하면서도 자원을 최소화하여 유지하기 때문에 실제 ML 시스템 운영에 매우 적합한 구조입니다.

결론: 유연한 ML 시스템 자동화를 위한 현명한 선택

Amazon SageMaker HyperPod의 Karpenter 기반 자동 확장 기능은 머신러닝 및 생성형 AI 추론 환경에서의 자원 최적화를 가능하게 해주는 매우 강력한 기능입니다. 단순히 확장만이 아니라, 자동화, 고가용성, 비용 효율성 등에서 단계적인 우수함을 보여줍니다.

특히, KEDA와 결합한 이중 자동 확장 구조는 기업의 실시간 서비스 환경에서 사용자 경험 안정성을 확보하며, 동시에 불필요한 리소스 낭비를 줄여주는 데 기여합니다. 머신러닝 추론 서비스의 자동 확장성을 고민하고 있다면 SageMaker HyperPod 기반 Karpenter 자동화 솔루션을 활용해보길 권장드립니다. 실제 구축 가이드는 AWS 공식 문서를 참고할 수 있으며, 별도의 설치 및 관리 부담 없이 즉시 사용할 수 있다는 점에서 뛰어난 생산성과 운영 효율을 제공합니다.

https://aws.amazon.com/blogs/machine-learning/introducing-auto-scaling-on-amazon-sagemaker-hyperpod/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Amazon SageMaker HyperPod의 자동 확장 도입과 활용 방법

카테고리