메뉴 닫기

생성형 AI 모델 배포를 위한 Amazon SageMaker HyperPod 통합 전략

아마존 SageMaker HyperPod를 활용한 생성형 AI 모델의 통합 배포 전략

최근 대규모 언어 모델(LLM)의 폭발적인 발전과 함께 생성형 AI 기반 애플리케이션의 상용화가 가속화되고 있습니다. 그러나 무거운 모델을 학습하고 배포하려는 기업 대부분은 인프라 구성, 자동화, 리소스 관리, 관측(Observability), 오토스케일링 등 다양한 복잡성을 동시에 해결해야만 합니다. 이러한 고민을 해결하며 기존 쿠버네티스(Kubernetes) 환경을 그대로 활용할 수 있도록 설계된 것이 바로 Amazon SageMaker HyperPod입니다.

HyperPod는 학습부터 파인튜닝, 최종 배포까지 동일 컴퓨팅 리소스를 활용하며, GPU 자원의 극대화, 자동 확장, 관측 기능까지 내장된 생성형 AI 모델 최적화 플랫폼입니다. 이 글에서는 HyperPod의 주요 기능, 활용 방법, 배포 가이드, 자동화 및 리소스 활용 전략을 상세히 소개합니다.

도입 배경 및 특징 소개

Amazon SageMaker HyperPod는 2023년 출시 이후, Perplexity, Salesforce, Hippocratic AI 등 다양한 선도 기업이 채택하여 대규모 생성형 AI 모델을 운영하는 데 핵심 인프라로 활용 중입니다. HyperPod는 Amazon EKS와 통합되어 쿠버네티스 기반의 워크로드를 그대로 이어갈 수 있으며, 다음과 같은 주요 기능을 제공합니다.

  • SageMaker JumpStart에서 제공하는 400개 이상의 오픈웨이트(Open-Weight) 모델의 원클릭 배포
  • Amazon S3, FSx에서 커스텀 및 파인튜닝 모델의 유연한 배포 및 자동화
  • HyperPod 전용 Kubernetes CRD(Custom Resource Definition)를 통한 고도화된 제어
  • ALB(Application Load Balancer) 및 SageMaker Endpoint 통합
  • CloudWatch, Prometheus 기반 오토스케일링(KEDA) 지원
  • 호스트 클러스터의 리소스를 학습과 추론 간 동적으로 재할당하는 Task Governance 기능

SageMaker HyperPod 아키텍처 개요 다이어그램

SageMaker JumpStart 모델 배포 예시

JumpStart UI 또는 YAML 코드를 활용하여 1줄 코드로 최신 모델을 배포할 수 있습니다.

배포 예시:

apiVersion: inference.sagemaker.aws.amazon.com/v1alpha1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1
    modelVersion: 2.0.7
  server:
    instanceType: ml.g5.8xlarge
  tlsConfig:
    tlsCertificateOutputS3Uri: s3://your-bucket/cert-path

S3 또는 FSx에서 커스텀 모델 배포하기

특정 팀 환경 또는 프레임워크 제약으로 인해 자체 학습 모델을 배포해야 하는 경우 S3 또는 FSx를 활용할 수 있습니다. 이 경우 InferenceEndpointConfig 리소스를 활용해 모듈화된 배포 스펙을 구성하고 배포까지 자동화합니다.

요건 정의 예시:

apiVersion: inference.sagemaker.aws.amazon.com/v1alpha1
kind: InferenceEndpointConfig
metadata:
  name: custom-deepseek-deploy
  namespace: default
spec:
  endpointName: deepseek15b
  instanceType: ml.g5.8xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: your-bucket
      region: us-west-2
    modelLocation: deepseek-models

SageMaker Studio에서 HyperPod 모델 배포 진행 화면
SageMaker 스튜디오에서 배포된 모델 상태 확인 화면

모델 호출 방법 및 보안 적용

모델은 SageMaker Endpoint 또는 직접 ALB로 호출할 수 있으며, TLS 인증서를 자동 발급하여 암호화 통신을 지원합니다.

SageMaker 예시:

aws sagemaker-runtime invoke-endpoint
–endpoint-name your-endpoint-name
–body fileb://payload.json
–content-type application/json
–accept application/json
output.json

직접 호출(ALB 경로 지정 포함):

curl –cacert /path/to/cert.pem
 "https://alb-endpoint/v1/chat/completions"
-H "Content-Type: application/json"
-d '{"messages": [{"role": "user", "content": "2020년 월드 시리즈 우승팀은?"}]}'

관측(Observability) 및 지표 자동 수집

HyperPod는 CloudWatch 및 Amazon Managed Prometheus, Grafana 기반의 관측 대시보드를 생성하며 AI 모델 운영 지표들을 자동 수집합니다.

핵심 지표:

  • model_latency_milliseconds: 모델 추론 대기 시간
  • model_ttfb_milliseconds: 첫 토큰 응답 시간
  • model_concurrent_requests: 활성 동시 요청 수

Grafana 기반 HyperPod 관측 대시보드 예시

자동화 – 오토스케일링 및 리소스 할당 전략

모델 검색량에 따라 자동으로 추론 인프라가 조정되며, KEDA 또는 HyperPod가 제공하는 오토스케일링 기능을 활용할 수 있습니다.

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: deepseek-scaler
spec:
  scaleTargetRef:
    name: deepseek-inference
    kind: Deployment
  minReplicaCount: 1
  maxReplicaCount: 5
  triggers:
    – type: aws-cloudwatch
      metadata:
        metricName: RequestCount
        threshold: "5"

리소스 우선순위 관리 (Task Governance)

동일 클러스터 내에서 학습과 추론 작업을 동시에 구성하면서도 GPU 자원의 실시간 우선순위 전환이 가능합니다. 이를 통해 트래픽 급증 시 학습 작업을 일시 중단하여 안정적인 추론 처리를 보장합니다.

Inference가 우선 실행되도록 구성된 클러스터 작업 예시

결론

Amazon SageMaker HyperPod는 생성형 AI 모델의 전 주기를 하나의 고성능 플랫폼에서 통합하여 실행할 수 있는 강력한 솔루션입니다. 관리형 서비스 형태로 제공되며 JumpStart, S3, FSx 등 다양한 모델 소스에서의 배포를 동적 오토스케일링 및 시각화된 운영 환경과 함께 제공합니다. 특히 기존 Kubernetes 환경을 그대로 활용하면서 보안, 운영, 확장, 자동화까지 모두 관리할 수 있어 업무 부담을 획기적으로 줄여줍니다.

AI/ML 모델을 필드에 빠르게 배포하고, 지속적으로 자동 확장하며, 성능을 모니터링하고 싶다면 SageMaker HyperPod를 통한 모델 운영 자동화 전략을 적극 고려해보시길 추천드립니다.

https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-launches-model-deployments-to-accelerate-the-generative-ai-model-development-lifecycle/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너