Optimized AI Inference Recommendations with Amazon SageMaker AI

소개

최근 몇 년간 인공지능(AI) 기술은 크게 발전해왔으며, 그중에서도 생성 AI는 다양한 분야에서 혁신적인 도구로 떠오르고 있습니다. 그러나 이러한 모델을 실제 환경에 배치하는 과정은 복잡하고 까다로운 작업으로, 주로 GPU 설정 및 최적화 기술과 관련된 문제로 인해 몇 주가 소요되곤 합니다. Amazon SageMaker AI는 이러한 문제를 해결하기 위해 최적화된 생성 AI 추론 추천 기능을 지원하고 있습니다. 이 기능은 모델 개발자가 인프라 관리 대신 정확한 모델 구축에 집중할 수 있도록 도와줍니다.

본문

최적화된 생성 AI 추론 추천의 활용 방법은 세 단계로 나누어 설명할 수 있습니다.

첫 번째 단계에서는 SageMaker AI가 모델의 아키텍처, 크기 및 메모리 요구 사항을 분석하여 실현 가능한 인스턴스 유형과 병렬 처리 전략을 식별합니다. 이는 테스트할 가치가 있는 구성으로 범위를 좁히는 과정입니다.

두 번째 단계에서는 선택한 성능 목표에 기반해 각 후보 구성에 맞는 최적화 기술을 적용합니다. 예를 들어, 처리량 목표를 설정하면 여러 토큰을 한 번의 지나감으로 예측할 수 있는 투기적 디코딩(speculative decoding) 모델을 훈련합니다. SageMaker AI는 다른 목표에 맞는 최적화 기술도 자동으로 선택하고 적용합니다.

세 번째 단계에서는 NVIDIA AIPerf를 사용하여 실제 GPU 인프라에서 각 최적화된 구성을 벤치마크하고, 그 결과를 검증된 메트릭을 포함한 순위별 추천으로 반환합니다.

예를 들어, SageMaker AI는 GPT-OSS-20B 모델을 throughput을 최대화하는 목표로 ml.p5en.48xlarge 인스턴스를 선택하고 투기적 디코딩을 적용하여 처리량을 두 배로 늘리는 결과를 보여줍니다. 이는 인프라 튜닝 대신 고객이 필요로 하는 제품과 모델에 집중할 수 있도록 도와주는 것입니다.

결론

Amazon SageMaker AI의 최적화된 생성 AI 추론 추천 기능은 모델 배치 시간을 몇 주에서 몇 시간으로 단축시켜 줍니다. 이를 통해 기업은 고객에게 가치를 제공하는 정확한 모델을 구축하는 데 집중할 수 있고, 인프라 관리 부담을 덜 수 있습니다. 더 자세한 정보와 샘플 노트북은 SageMaker AI 문서를 통해 확인할 수 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ai-now-supports-optimized-generative-ai-inference-recommendations/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Optimized AI Inference Recommendations with Amazon SageMaker AI

카테고리