AWS와 일본 경제산업성이 협력하여 추진한 GENIAC(Generative AI Accelerator Challenge) Cycle 2는 단순한 하드웨어 제공을 넘어선, 대규모 생성형 AI 모델 학습을 위한 복합적인 기술 및 조직적 과제를 해결한 대표적인 사례입니다. 본 글에서는 해당 프로젝트의 구조, 핵심 기술 자산, 그리고 이를 뒷받침한 AWS의 자동화 및 구축 가이드를 중심으로 내용을 정리하여 공유드립니다.
기업과 정부 프로젝트를 위한 FM 학습 사례와 구조
2024년 일본 경제산업성이 시작한 GENIAC 프로그램은 대규모 FM(기초 모델) 학습을 촉진하기 위한 국가 주도형 이니셔티브로, AWS는 두 번째 사이클(Cycle 2)의 클라우드 제공사로 선정되어 총 12개 기업에 기술 인프라 및 지원을 제공했습니다. 겉보기에는 수 백 개의 GPU와 Trainium 자원을 제공하는 것처럼 단순해 보일 수 있지만, 실제로는 분산 학습 환경 구성, 클러스터 네트워크, 저장소, 모니터링 등 복잡한 시스템 설계를 포함해야 했습니다.
대표 사례로는 미래지향적 다국어 모델인 Llama 3.1 Shisa V2 405B, Stockmark-2-100B-Instruct-beta 등 다양한 대규모 모델이 포함되었으며, 단 하루 만에 127개의 EC2 P5 인스턴스(NVIDIA H100 탑재)와 24개의 EC2 Trn1 인스턴스(Trainium 기반)를 배포하였습니다.
협업적 기술 지원 구조: Cross-functional Engagement
AWS는 단일 역할 기반이 아닌, 계정 매니저, 전문 솔루션 아키텍트, 서비스 엔지니어, 고객 지원 매니저가 혼합된 멀티 계층의 기술 참여 체계를 구축했습니다. GENIAC 환경에서는 기술적 비효율과 병목 현상을 방지하기 위해 다음과 같은 협업 구조가 핵심 역할을 했습니다.
이 구조는 고객이 학습 환경을 설계하고 운영하는 데 필요한 모든 요소 (모델 아키텍처, 분산 학습 프레임워크, 파일 스토리지, 네트워크 설정 등)를 명확히 관리하는 것을 돕습니다. 이를 실현하기 위해 AWS는 내부 및 외부 Slack 채널로 고객과 실시간 소통하는 구조를 만들고, 기술 이슈 및 설정 오류를 빠르게 해결할 수 있도록 했습니다.
자동화된 구축 가이드와 참조 아키텍처
학습 환경을 표준화하고 반복 가능한 형태로 제공하기 위해 AWS는 AWS ParallelCluster와 SageMaker HyperPod를 기반으로 한 두 가지 참조 아키텍처를 사전에 구축하고 GitHub 레포지토리로 제공했습니다. 이를 통해 사용자는 설정 자동화가 가능해졌고, 최소한의 입력만으로 대규모 클러스터 시스템을 구성할 수 있었습니다.
구성 요소:
- AWS ParallelCluster 기반 Slurm 클러스터
- Amazon FSx for Lustre를 통한 고속 스토리지
- Amazon S3 연동을 통한 장기 데이터 저장소
- Amazon Prometheus + Grafana를 활용한 GPU 및 네트워크 모니터링
이러한 구성은 성능과 비용 효율을 동시에 달성할 수 있도록 계층적 스토리지 구조를 구현했습니다. S3와 Lustre 간 데이터 자동 이동이 가능한 DRA(Data Repository Association)를 설정함으로써, 수동 복사 없이도 고속 데이터 접근을 보장할 수 있었습니다.
자동화된 GPU 오류 모니터링 설정 또한 현장에서 매우 유용하게 작용했습니다.
실전 교육 및 배포 가이드
GENIAC 사이클 2에서는 단순한 문서 제공이 아닌, 활용 가능한 교육 시스템과 핸즈온 기반의 세션도 함께 제공되었습니다. 대표적으로 2024년 10월에 일본에서 개최된 워크숍에서는 80명이 넘는 참가자들이 실제 클러스터 배포 실습을 통해 ParallelCluster와 SageMaker HyperPod를 체험하였습니다.
- 클러스터 슬럼 기반 설정 실습
- 분산 PyTorch 학습 테스트
- EFA(고속 네트워크) 모니터링 실습
- GPU 오작동 분석(Grafana + DCGM)
워크숍을 통해 AWS 고객은 각자의 FM 학습 환경을 빠르게 온보딩하고, 필요한 경우, Lead SA와 함께 고객 전용 설정을 위한 개별 세션을 통해 최적의 구성을 탐색할 수 있었습니다.
활용 예시와 향후 전략
프로젝트를 실행한 고객 기업들은 GENIAC을 통해 모델 정확도, 학습 속도, 비용 효율을 동시에 향상시킬 수 있었으며, 이를 가능하게 한 기술적 지원(예: 파일 시스템 최적화, 노드 간 GPU 통신 구성 지원 등)에 대해 높은 만족도를 보였습니다.
GENIAC의 성공은 단순히 하드웨어 문제가 아닌 조직적 구조와 기술적 자동화 프레임워크 구축의 중요성을 시사합니다. AWS는 이 경험을 바탕으로 향후 사이클에 더욱 최적화된 자동화 템플릿, 확장 가능한 지원 체계를 정립하기 위해 준비 중입니다.
결론
AI 모델의 성숙한 구축과 활용을 위해서는 단순한 연산 자원이 아니라, 통합된 아키텍처 설계와 개발 가이드, 자동화 배포 시스템, 실시간 모니터링, 그리고 협업 중심의 기술 지원 체계가 필요합니다. GENIAC은 이를 조직화하고 구조화한 모범적인 사례이며, 향후 생성형 AI 개발과 활용에서 유의미한 방향성을 제시해줍니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기