메뉴 닫기

Amazon SageMaker AI 추론 엔드포인트 배포 가이드

Amazon SageMaker AI 추론 엔드포인트 배포 가이드

최근 대규모 언어 모델(LLM)을 배포하여 추론을 수행하는 과정에서 안정적인 GPU 용량 확보가 필수적입니다. 특히, 중요한 평가 기간이나 제한된 시간 동안의 생산 테스트 또는 급격한 작업 부하 동안에는 더욱 그러합니다. 이러한 용량 제한은 배포 지연 및 애플리케이션 성능에 영향을 줄 수 있습니다. Amazon SageMaker AI의 교육 계획을 사용하면 특정 시간 동안 계산 용량을 예약할 수 있으며, 이제 이는 추론 엔드포인트도 지원하여 예측 가능한 GPU 가용성을 제공합니다.

핵심 내용과 활용 사례

  • 용량 요구 사항 식별: 추론 작업에 필요한 인스턴스 유형, 개수, 기간을 결정합니다.
  • 가용한 교육 계획 조회: 요구 사항과 시간 창에 맞는 가용한 용량을 쿼리합니다.
  • 교육 계획 예약 생성: 적절한 제공을 선택하여 ARN을 생성하는 예약을 생성합니다.
  • 엔드포인트 배포 및 관리: SageMaker AI 엔드포인트를 예약된 용량으로 설정하고 예약 기간 동안 생명 주기를 관리합니다.

Amazon SageMaker AI를 통한 교육 계획은 ml.p5.48xlarge 인스턴스와 같은 인스턴스 타입을 지정하여 용량을 예약하는 유연한 방법을 제공합니다. 이는 데이터 과학팀이 중단 없이 모델 평가를 수행하도록 지원합니다. 다음은 SageMaker AI의 4단계 활용 예시입니다:

  1. 가용한 용량 조회 및 예약 플랜 생성:
    데이터를 평가할 p-family GPU 용량을 확인하고 Search-training-plan-offerings API를 사용해 요청을 제출합니다.

    aws sagemaker search-training-plan-offerings --target-resources "endpoint" --instance-type "ml.p5.48xlarge" --instance-count 1 --duration-hours 168 --start-time-after "2025-01-27T15:48:14-04:00" --end-time-before "2025-01-31T14:48:14-05:00"
    
  2. 엔드포인트 구성 및 예약된 용량으로 연결:
    이후, 생성된 ARN을 통해 엔드포인트 설정을 구성하고 추론 엔드포인트를 배포합니다.

    aws sagemaker create-endpoint-config --endpoint-config-name "ftp-ep-config" --production-variants '[{"VariantName": "AllTraffic", "ModelName": "my-model", "InitialInstanceCount": 1, "InstanceType": "ml.p5.48xlarge", "InitialVariantWeight": 1.0, "CapacityReservationConfig": {"CapacityReservationPreference": "capacity-reservations-only", "MlReservationArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/p4-for-inference-endpoint"}}]'
    
  3. 예약된 용량으로 엔드포인트 배포:
    설정이 완료되면, 인스턴스를 예약된 용량에 배포하고 모델을 로드하는 단계입니다.

    aws sagemaker create-endpoint --endpoint-name "my-endpoint" --endpoint-config-name "ftp-ep-config"
    
  4. 엔드포인트 테스트 및 결과 반영:
    예약 기간 동안 엔드포인트 서비스를 통해 성능 측정 및 로그를 수집하여 분석합니다.

결론

Amazon SageMaker AI의 교육 계획을 사용하면, GPU 용량을 예측 가능한 방식으로 확보하고 제한된 시간 동안 추론을 수행할 수 있습니다. 이러한 방식은 모델 평가나 A/B 테스트 등 시간 제약이 있는 작업에 추천됩니다. 교육 계획은 용량 예약을 통해 뛰어난 유연성과 비용 제어력을 제공하며, 일정한 가격 구조로 예산을 정확히 계획할 수 있습니다.

기술 자세한 사항은 [1]을 통해 확인할 수 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/deploy-sagemaker-ai-inference-endpoints-with-set-gpu-capacity-using-training-plans/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일: acloud@a-cloud.co.kr
회사 번호: 02-538-3988
회사 홈페이지: https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너