대규모 생성형 AI 인퍼런스를 NVIDIA Dynamo와 Amazon EKS로 자동화하고 최적화하는 방법

대규모 생성형 AI 인퍼런스, 어떻게 NVIDIA Dynamo와 Amazon EKS로 자동화하고 최적화할까?

최근 생성형 AI 모델 사용이 본격적으로 일상 서비스에 통합되면서, 빠르고 대규모로 추론할 수 있는 인프라 구축이 매우 중요해지고 있습니다. 하지만 많은 기업이 기존 시스템으로는 짧은 지연 시간(latency)과 높은 대기 수요(concurrent demand)를 감당하기 어려워합니다.

이 글에서는 NVIDIA의 오픈소스 인퍼런스 프레임워크인 Dynamo와 AWS의 관리형 쿠버네티스 서비스인 Amazon EKS를 연동하여, 어떻게 대규모 생성형 AI 모델을 효율적으로 배포하고 자동화된 확장성과 고성능을 구현할 수 있는지 배포 가이드 중심으로 설명합니다.

NVIDIA Dynamo란?

Dynamo는 LLM(Local Language Models) 추론을 위한 고성능 분산 프레임워크로, 다양한 런타임(예: TRT-LLM, vLLM, SGLang 등)을 지원합니다. 이 프레임워크는 다음과 같은 핵심 기능을 기반으로 작동합니다.

프리필(입력 전처리)과 디코드(출력 생성) 단계의 분리
실시간 리소스 조정을 위한 Dynamo Planner
캐시 중복 계산을 최소화하는 Smart Router
수 페타바이트의 캐시를 효율적으로 저장하는 KV Cache Block Manager
초고속 데이터 이동을 지원하는 전용 통신 라이브러리 NIXL

NVIDIA Dynamo 아키텍처 개요도

사례: 프리필-디코드 분리로 성능 극대화

기존 LLM 시스템은 프리필과 디코드가 같은 GPU에서 실행되어 리소스 충돌이 자주 발생하곤 합니다. Dynamo는 이 두 과정을 분리하여 각각 별도의 GPU에 할당함으로써 병렬성과 처리 효율을 높입니다.

프리필과 디코드를 분리하여 처리하는 구조

자동 확장: Dynamo Planner와 Karpenter의 연동

Dynamo는 GPU 자원의 적절한 할당을 관리하는 Planner가 포함되어 있으며, Amazon EKS의 확장 기능 Karpenter와 연동하여 실시간 수요에 따라 G6 인스턴스를 60초 이내에 증설할 수 있습니다. 특히 입력 길이가 긴 요청이 많아지면 프리필 리소스를 늘리는 방향으로 자동 조정합니다.

GPU 리소스 모니터링 및 확장을 위한 Dynamo Planner 구조

중복 캐시 계산 최소화

Dynamo Smart Router는 어떤 노드에 이미 필요한 KV Cache가 저장되어 있는지를 파악하여 요청을 그 노드로 라우팅합니다. 이로 인해 캐시 재계산을 피하고 빠른 답변 제공이 가능해집니다.

스마트 라우팅을 통해 KV 캐시 재사용

스토리지 최적화: 비용 효율적인 캐시 관리

KV Block Manager는 오래되거나 우선 순위가 낮은 KV 캐시를 GPU 메모리에서 CPU, 로컬 SSD, 혹은 Amazon S3로 계층적으로 이동시켜 수천 테라바이트에도 달하는 캐시 스토리지를 효율적으로 운용할 수 있게 합니다. 이를 통해 GPU 메모리는 중요한 캐시에 집중할 수 있어 추론 속도와 효율성이 동시에 향상됩니다.

고속 데이터 전송: NIXL의 역할

NVIDIA NIXL은 다양한 저장소 및 GPU 간의 통신 병목을 해결하기 위한 전용 라이브러리입니다. GPUDirect Storage, UCX, Amazon S3 등을 백엔드로 지원하며, 최적 경로를 자동 선택함으로써 복잡한 설정 없이도 빠른 캐시 전송을 가능하게 합니다.

Dynamo 요청 흐름도: 디코드부터 프리필까지

Amazon EKS 위에서 Dynamo 자동화 배포하기

Amazon EKS는 Kubernetes 기반 인프라를 AWS에서 관리형으로 제공합니다. Karpenter를 통한 오토 스케일링, EFA(Elastic Fabric Adapter) 기반 고속 GPU 간 통신, 파일 스토리지(Amazon EFS 및 FSx) 등의 기능을 통해 대규모 LLM 배포를 위한 최적 플랫폼을 제공합니다.

Amazon EKS에서 NVIDIA Dynamo를 배포한 아키텍처 예시도

배포 및 테스트 업무 흐름 예시:

설치 준비: AWS CLI, kubectl, helm, terraform 설치
인프라 프로비저닝: ./install.sh 실행
베이스 이미지 빌드: ./build-base-image.sh vllm
모델 추론 배포: ./deploy.sh
추론 테스트 및 확인: ./test.sh

이후 Kubernetes 포트 포워딩을 통해 모델을 직접 호출하여 추론 결과를 받을 수 있습니다.

결론

이번 포스팅에서는 NVIDIA Dynamo를 Amazon EKS에 구축함으로써, 생성형 AI 추론 환경에서 자동화와 고성능을 동시에 만족시키는 방법을 배포 가이드 방식으로 설명드렸습니다.

비용 효율성, 확장성, 성능 최적화 측면 모두에서 뛰어난 옵셔널 구성 요소들이 활발히 연계되며, 특히 NIXL 통신 프레임워크와 EKS 기반 자동 확장은 대규모 서비스 운영에 강력한 기반이 될 것입니다.

기존 AI 인프라에 부담 없이 통합 가능하면서도 최첨단 운영이 가능한 NVIDIA Dynamo — AI 배포 자동화의 핵심 열쇠가 될 수 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-with-nvidia-dynamo-and-amazon-eks/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

대규모 생성형 AI 인퍼런스를 NVIDIA Dynamo와 Amazon EKS로 자동화하고 최적화하는 방법

카테고리