P-EAGLE의 병렬 추론 혁신

서론

큰 언어 모델(LLM)이 날이 갈수록 크기와 복잡도가 증가함에 따라, 상용화 환경에서 추론 처리량을 최대화하면서 지연 시간을 최소화하는 것은 여전히 중요한 과제입니다. 이를 해결하기 위한 효과적인 전략 중 하나로 고안된 것이 ‘추론 스펙’입니다. 이 기법은 경량의 드래프트 모델을 통해 미래의 토큰을 예측하고 목표 LLM을 통해 이를 검증하는 단일 포워드 패스를 수행합니다. 최근 AWS는 이 프로세스를 완전히 병렬화하여 훨씬 더 효율적이고 빠른 P-EAGLE을 개발했습니다.

본문

P-EAGLE은 AWS의 혁신적 사례로, 추론 스펙 기술을 반복적 단계에서 완전히 병렬화된 과정으로 변환합니다. 기존의 방법은 추론 깊이에 따라 시간이 선형적으로 증가하는 반면, P-EAGLE은 스펙 토큰을 동시에 예측하여 이 제약을 해결합니다.

AWS SageMaker JumpStart는 이제 P-EAGLE을 활용하여 더 많은 인기 모델을 지원합니다. JumpStart는 단 몇 줄의 코드 또는 클릭 한 번으로 배포할 수 있는 최신 개방 중량 모델을 제공합니다. P-EAGLE은 병렬 추론 드래프팅이 가능하여 성능을 극대화하고 지연을 줄입니다.

EAGLE과 P-EAGLE 아키텍처 비교

P-EAGLE 사용법은 다음과 같습니다. SageMaker JumpStart 카탈로그에서 호환 가능한 모델을 선택하고, 병렬 드래프팅 사양을 설정한 후, 실시간 SageMaker AI 엔드포인트를 배포하여 생성 AI 애플리케이션을 가속화합니다. 실제 벤치마크에 따르면 P-EAGLE은 EAGLE-3에 비해 최대 1.69배의 처리량 속도를 보입니다.

결론

P-EAGLE은 스펙 드래프팅을 순차적에서 병렬적인 예측으로 개선하여 추론 깊이와 드래프터 대기 시간 사이의 선형 관계를 제거합니다. 이를 통해 성능 향상과 질 저하 없이 최대 1.69배의 처리량 개선 효과를 제공합니다.

아마존 SageMaker JumpStart를 통해 P-EAGLE 가속 모델을 손쉽게 배포할 수 있습니다. SageMaker를 통해 빠르게 AI 애플리케이션의 추론 시간을 줄여 생산성을 높이세요.

[1] https://aws.amazon.com/blogs/machine-learning/parallelize-speculative-decoding-with-p-eagle-on-amazon-sagemaker-ai/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

P-EAGLE의 병렬 추론 혁신

서론

본문

결론

카테고리