아마존 SageMaker HyperPod, 클릭 한 번으로 분산 학습 클러스터 자동 생성하기
머신러닝 모델의 학습과 추론 환경을 구축하는 과정은 복잡한 인프라 구성 요소와 설정이 필요하기 때문에 많은 시간과 리소스를 요구하곤 합니다. 특히 수백 대의 AI 액셀러레이터가 동원되는 분산 학습 환경에서는 네트워크, 보안, 스토리지, 오케스트레이션까지 전방위적인 인프라 구성 작업이 필요합니다. 이를 간편하고 자동화된 방식으로 해결해주는 서비스가 Amazon SageMaker HyperPod입니다.
2025년 9월, AWS는 SageMaker HyperPod의 클러스터 생성 경험을 대대적으로 개선해, 클릭 한 번으로 학습 환경을 자동 구축할 수 있는 기능을 출시했습니다. 이 글에서는 신규 기능의 핵심 내용과 구성 사례, 그리고 실무 활용 방안에 대해 자세히 살펴보겠습니다.
새로운 클러스터 생성 경험: 자동화된 IaC와 신속한 배포
기존에는 SageMaker HyperPod을 사용하기 위해 VPC 설정, IAM 역할 생성, S3 버킷 구성 등의 사전 작업을 사용자가 직접 수동으로 처리해야 했습니다. 이 과정은 실수나 누락이 발생하기 쉬워 클러스터 배포 실패로 이어지는 경우가 많았습니다.
신규 기능은 이러한 과정을 모두 자동화했습니다. AWS Resource들을 지정된 인프라 코드(IaC)로 정의하여 AWS CloudFormation Stack을 자동으로 구성하고 단일 요청을 통해 클러스터와 필수 리소스들을 동시에 배포할 수 있습니다.
두 가지 배포 옵션: 빠른 설정(Quick Setup)과 맞춤 설정(Custom Setup)
SageMaker HyperPod은 AWS 콘솔 상에서 두 가지 방식으로 클러스터를 배포할 수 있도록 지원합니다.
- 빠른 설정(Quick Setup)
빠른 설정은 기본값이 사전 정의되어 있어 가장 손쉽게 클러스터를 생성할 수 있는 방식입니다. 인스턴스 그룹, 네트워킹, EKS 오케스트레이션, 라이프사이클, IAM 권한, 스토리지 등 모든 요소를 자동으로 구성하며, 헬스 체크 및 자동 복구 기능도 기본 활성화되어 있습니다.
네트워크 구성은 /16 프라이빗 서브넷을 포함하며, 가속화 인스턴스 그룹 수천 대를 커버할 수 있도록 설계되었습니다. 오케스트레이션은 최신 Amazon EKS 버전으로 구성되고, EFA, Neuron, NVIDIA 플러그인, Kubeflow 연산자, HMA, 추론 오퍼레이터 등 다양한 구성요소들이 자동 활성화됩니다.
스토리지를 위해 새로운 S3 버킷과 FSx for Lustre 파일 시스템도 자동 생성되며, IAM 역할 역시 필요한 권한으로 자동 구성됩니다.
- 맞춤 설정(Custom Setup)
보다 정교한 설정이 필요한 경우에는 맞춤 설정을 이용할 수 있습니다. CIDR 범위, 가용 영역, 서브넷 구성 등 네트워크부터, 기존 EKS 및 FSx 리소스의 활용, Helm 차트를 통한 오퍼레이터 직접 구성, 라이프사이클 스크립트 커스터마이징 등 완전한 유연성을 제공합니다.
진보된 기능으로는 연속 프로비저닝(Continuous Provisioning), 선택적 노드 복구 기능 비활성화 옵션, 병렬 확장/축소/업데이트 등이 포함되어 있으며, 다양한 ML 프레임워크나 사내 전용 소프트웨어를 설치할 수 있는 고급 설정도 지원됩니다.
인스턴스 그룹 구성 옵션 및 고급 헬스 체크 지원
클러스터 생성 이후에도 SageMaker 콘솔에서 원하는 만큼 인스턴스 그룹을 추가할 수 있습니다. 일반(Standard Group) 또는 제한된 환경(RIGs)으로 선택할 수 있으며, 임시 테스트를 위한 온디맨드 실행 또는 일정 기반의 자동 훈련(Flexible Training Plan) 확보도 가능합니다.
고급 설정에서는 EKS 오케스트레이션 하에서 각각의 인스턴스 그룹에 대해 스트레스 체크 및 연결 상태 체크 등 심화 헬스 체크 기능을 활성화할 수 있어 분산 학습 환경의 안정성을 극대화할 수 있습니다. 또한 멀티스레드 ON/OFF CPU 코어 제어도 가능합니다.
템플릿 다운로드 및 CI/CD 자동화까지 연계
모든 설정이 완료된 후에는 선택한 매개변수가 포함된 CloudFormation 템플릿 파일을 다운로드할 수 있으며, 이를 AWS CodePipeline 등과 통합해 배포 자동화, 테스트 자동화, 지속적인 통합 구현에도 사용할 수 있습니다.
결론
Amazon SageMaker HyperPod의 새로운 클러스터 생성 경험은 기계 학습용 분산 클러스터 인프라를 더 쉽고, 빠르며, 안전하게 배포할 수 있도록 설계되었습니다. 자동화된 배포 가이드를 통해 생성 즉시 실습 환경을 구성할 수 있으며, 커스터마이징을 통해 다양한 요구사항까지 충족할 수 있습니다. 인프라 자동화(automation), 활용성 향상(utilization), 학습 환경 구축(deployment guide)을 고민 중이라면, 이번 업그레이드가 큰 도움이 될 것입니다.
지금 바로 SageMaker 콘솔에 접속하여 성능과 유연성이 한층 향상된 SageMaker HyperPod 클러스터를 구축해보세요.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기