LMCache를 활용한 대규모 모델 추론 성능 개선 가이드

소개

최근 대규모 언어 모델(LLM) 배치에서는 토큰 수의 증가로 인해 성능과 비용의 문제에 직면하고 있습니다. 긴 맥락을 처리하는 모델은 각 요청에 대한 비용을 증가시킬 수 있지만 AWS에서는 이러한 문제를 해결하기 위해 Large Model Inference(LMI) 컨테이너의 새로운 업데이트를 발표했습니다. 이번 글에서는 LMI의 새로운 기능과 이를 활용하여 성능을 최적화하는 방법을 소개합니다.

본론

AWS는 LMI 컨테이너에 LMCache 지원을 도입하여 긴 맥락을 효과적으로 처리할 수 있도록 하였습니다. LMCache는 자주 재사용되는 문서를 캐싱하여 성능을 향상시키고 비용을 절감할 수 있는 기회를 제공합니다.

LMCACHE 아키텍처 다이어그램

LMCache는 새로운 방식으로 데이터 '핫 스팟'을 캐싱하여 시간당 첫 번째 토큰(Time to First Token)을 획기적으로 개선합니다. 특히 CPU 메모리 또는 NVMe 저장소를 활용하여 긴 맥락 시나리오를 효율적으로 처리할 수 있습니다. 다양한 모델과 맥락 길이를 대상으로 한 테스트 결과, 요청 처리 속도가 54% 감소하여 비용 절감 효과를 입증했습니다.

직접적인 구성 외에도 자동 구성 방식을 통해 KV 캐시를 쉽게 배치할 수 있으며, 빠른 배포를 위해 자동 구성 옵션을 활성화할 수 있습니다. SageMaker AI에서 세션 기반의 루팅을 활용하면 캐싱 성능을 극대화할 수 있습니다.

VMCache의 성능 테스트에서는 CPU 오프 로딩과 NVMe 스토리지의 사용으로 상당한 성능 향상을 확인했습니다. CPU 오프 로딩의 성능은 전체 요청 지연 시간을 절반 이하로 줄였습니다(52.978초 → 24.274초).

LMI 최신 릴리스는 강화된 EAGLE 투기적 디코딩과 더불어, Qwen3-VL 시리즈를 포함한 다중 모드 지원을 포함합니다. 이러한 확장을 통해 LLM 및 복합 모델의 효과적인 배포가 가능해졌습니다.

결론

LMI의 새로운 기능은 AWS에서 대규모 모델의 추론을 최적화하는 데 큰 장점을 제공합니다. LMCache, EAGLE 디코딩, 확장된 모델 지원 등은 대규모 모델을 더욱 효율적으로 배포하고 관리할 수 있게 해줍니다. AWS의 향상된 성능을 통해 AI 솔루션을 보다 빠르게 구현하세요.

[1] https://aws.amazon.com/blogs/machine-learning/large-model-inference-container-latest-capabilities-and-performance-enhancements/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

LMCache를 활용한 대규모 모델 추론 성능 개선 가이드

LMCache를 활용한 대규모 모델 추론 성능 개선 가이드

소개

본론

결론

카테고리