메뉴 닫기

AWS가 여는 AI 인프라 혁신의 새로운 시대

AI 인프라의 미래를 여는 AWS의 새로운 접근

최근 생성형 AI가 산업 전반에 걸쳐 실질적인 혁신을 이끌면서, AI 모델의 학습과 배포를 위한 인프라 수요도 폭발적으로 증가하고 있습니다. 더 빠르고, 탄력적이며 비용 효율적인 AI 인프라는 이제 선택이 아닌 필수가 되었고, AWS는 그 중심에서 인프라 혁신을 이끌고 있습니다. 이번 글에서는 AWS가 어떻게 AI 인프라의 병목 현상을 해결하고, 나아가 기업들이 AI를 효율적으로 실현할 수 있도록 지원하고 있는지를 소개하고자 합니다.

지능형 자원 관리를 실현한 Amazon SageMaker HyperPod

AI 인프라 전략의 핵심은 단연 Amazon SageMaker AI입니다. 특히, SageMaker HyperPod는 기존처럼 단순한 연산 성능 강화보다, 더욱 스마트한 자원 관리와 자동화된 회복 시스템을 통해 AI 학습 효율을 크게 높이고 있습니다.

HyperPod의 가장 눈에 띄는 특징은 자체 복구 기능입니다. 모델 학습 실패가 발생하더라도 전체 스택에 걸쳐 클러스터가 자동 회복되며, 학습 작업을 수천 개의 가속기로 병렬 분산해 처리합니다. 특히 16,000개의 H100 GPU 클러스터에서 하루 노드 장애율을 0.1% 낮추는 것만으로도 효율이 4.2% 향상되고, 1일 최대 20만 달러를 절감할 수 있다고 하니 실로 놀라운 수치입니다.

이를 위해 최근에는 CPU 메모리를 이용한 Managed Tiered Checkpointing 기능도 도입되어, 디스크 기반 대비 훨씬 빠르고 비용 효율적인 체크포인트 복구가 가능해졌습니다. 다양한 모델 학습 레시피와 Jupyter, LangChain, vLLM 같은 도구 지원까지 더해져, AI 개발자들은 모델 훈련 자동화 및 배포 가이드를 손쉽게 실현할 수 있습니다.

Amazon SageMaker 구조도

네트워크 성능, AI 확장의 열쇠

AI를 PoC 단계에서 실제 서비스로 전환하면서 가장 큰 병목은 네트워크였습니다. 특히, 대형 언어 모델(LLM)을 훈련할 경우 수 밀리초의 지연도 며칠, 몇 주의 시간 낭비로 이어질 수 있습니다.

AWS는 이를 해결하기 위해 2024년 기준 3백만 개 이상의 네트워크 링크로 구성된 최신 AI 네트워크 패브릭인 10p10u 인프라를 도입했습니다. 서버 간 지연 시간을 10 마이크로초 이하로 유지하면서 2만 개 GPU를 넘는 학습 환경을 지원합니다. 덕분에 몇 주가 걸리던 모델 훈련이 이제 몇 일 만에 가능해졌죠.

핵심 네트워크 기술로는 SIDR(Scalable Intent Driven Routing)과 EFA(Elastic Fabric Adapter)가 있습니다. SIDR은 네트워크 장애나 혼잡을 감지하면 1초 이내에 자동으로 트래픽 경로를 재설정하며, 이는 전통적 방식보다 10배 빠릅니다.

AWS의 가속 컴퓨팅: 최고 성능을 보다 합리적으로

AI 워크로드는 전통적인 인프라 이상의 컴퓨팅 성능을 요구합니다. AWS는 NVIDIA와의 협업으로 GPU 성능을 제공하는 동시에, 독자적인 AI 전용 칩인 Trainium을 통해 비용 효율까지 확보했습니다.

최근 공개된 EC2 P6 인스턴스는 NVIDIA Blackwell 기반 8개의 GPU와 1.4TB GPU 메모리, 3.2Tbps의 네트워크 성능을 갖췄습니다. 실제 사례로 JetBrains는 기존 H200 기반 인스턴스 대비 학습시간을 85% 이상 단축했습니다. Trainium은 독자적인 시스톨릭 배열 구조로 메모리 대역폭 부담을 줄이며, EC2 UltraClusters와 결합하면 최대 6개월 단위의 자원 예약도 가능하여 안정적인 사용을 보장합니다.

NVIDIA 기반 AI 인프라 아키텍처 예시

오늘의 준비가 내일의 AI를 만든다

AWS는 AI 혁신의 기반을 제공하기 위해 오랜 기간에 걸쳐 보안, 확장성, 자동화, 복원력을 갖춘 인프라에 투자해왔습니다. SageMaker HyperPod의 스마트한 리소스 분배부터, 10마이크로초 단위의 저지연 네트워크, Trainium과 GPU 기반 가속 컴퓨팅까지, AWS는 어떤 규모의 기업도 쉽고 강력하게 AI를 활용하는 방법을 제공합니다.

AI 모델 학습의 자동화 및 배포 최적화를 고민하고 있다면 지금이 바로 AWS AI 인프라를 도입할 적기입니다.

https://aws.amazon.com/blogs/machine-learning/powering-innovation-at-scale-how-aws-is-tackling-ai-infrastructure-challenges/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너