AWS AI League 챔피언의 탄생기: 초보 개발자의 전략적 성장과 모델 튜닝 여정
AI, 특히 생성형 AI는 기술 습득 이상의 도전을 요구합니다. AWS AI 리그 ASEAN 파이널에서 보여준 블릭스 포리야센(Blix Foryasen)의 여정은 단순한 경쟁을 넘어, 데이터셋 구성, 하이퍼파라미터 튜닝, 자동화된 평가기 반응 최적화까지 모든 과정을 실험하며 배우는 귀중한 학습 경험이었습니다. 본 포스트는 AWS가 지원하는 플랫폼들을 어떻게 다루고, 제한된 리소스로 최대 성과를 거둘 수 있었는지를 중심으로 소개합니다.
AWS AI 리그는 아세안 6개국 학생을 대상으로 시작된 생성형 AI 대회로, Amazon SageMaker JumpStart와 PartyRock을 활용해 대형 언어모델(Large Language Model, 이하 LLM)을 파인튜닝하며, 퀴즈 기반 자동 평가 시나리오에서 베이스라인 모델보다 나은 성능을 얻는 것이 핵심 과제였습니다.
참가자들은 총 세 가지 핵심 도메인(프롬프트 엔지니어링, 기반 모델 아키텍처, 책임감 있는 AI)을 다루는 문제에 대해 모델 성능을 겨루었습니다. 평가 방식은 LLM 판사 모델, 전문가, 라이브 청중 점수를 반영한 하이브리드 방식이었습니다.
![]()
블릭스는 대회에 2주 늦게 합류하여 훈련 시간과 제출 횟수 모두 제한적인 상황에 부딪혔지만, 전략적인 접근으로 극복했습니다.
파인튜닝 자동화 전략 수립
SageMaker JumpStart는 수많은 조절 가능한 하이퍼파라미터를 제공하는 만큼, 우선순위 설정이 중요합니다. 블릭스는 반복 실험을 통해 학습률과 epoch 수 조합을 기준으로 파인튜닝을 최적화했습니다. 초기엔 학습률 0.0003, epoch 2조합에서 57%의 퀴즈 승률을 달성했지만, 데이터가 커질수록 오히려 성능이 하락하는 경험을 했습니다.
이에 따라 전략을 수정, 데이터셋을 줄이고 품질을 높이는 방향으로 전환했습니다. PartyRock으로 질문만 생성하고, 응답은 DeepSeek R1 모델 API를 통해 생성해 장문의 체계적인 구조를 유지하며 모델 평가 기준에 부합하도록 했습니다.
질문 생성 시 PartyRock에서는 다음과 같은 가이드를 정해 자동화했습니다:
- 기본/분석형/체인오브생각(CoT) 문제의 균등 분포 유지
- 창의성 온도(temperature): 0.7, 정답 생성 시는 0.2
- Top-p 값은 0.9 고정
JSONL 구조로 대량 생성된 응답은 CoT 기반의 단계적 사고를 포함했고, 문항당 평균 900 토큰 이상의 긴 응답을 생성하며 LLM 평가자의 점수를 높이는 데 효과적이었습니다.
![]()
LoRA 튜닝: 모델 흡수력 증대
추가적으로, 블릭스는 LoRA(Low-Rank Adaptation) 기법을 도입해, 주목 모듈(attention) 및 피드포워드 모듈을 대상으로 하는 얕은 파라미터 업데이트를 수행했습니다. 이로 인해 낮은 리소스 환경에서도 학습 효과를 극대화할 수 있었습니다.
최종 라운드에서 적용된 LoRA 설정은 다음과 같습니다:
- learning rate: 0.00008 (초기 대비 절반 이상 감소)
- lora_r 및 lora_alpha: 모두 256
- target_modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
이 설정은 복잡한 응답을 수용하고 일반화하는 데 필요한 공간을 충분히 확보하며, 모델 일반화를 효과적으로 달성할 수 있게 해주었습니다.
제한된 조건에서의 승부수
마지막 5시간의 SageMaker 훈련 시간 동안 블릭스는 두 번의 전면 튜닝 실험을 수행했으며, 첫 번째는 65%, 마지막 실험은 77%의 승률을 달성, 리더보드 상위로 급상승하며 지역 챔피언 타이틀을 획득했습니다.
그랜드 파이널 실전에 앞서, 참가자들은 토큰 수 제한(200 tokens), 제한된 응답 시간(60초), 평가기 중심 평가 시스템 아래에 맞는 프롬프트 전략 최적화를 위해 Claude Sonnet 4 기반의 프롬프트 검증과 개선 전략을 세웠습니다. 평가 중 유용한 전략은 다음과 같습니다:
- 선언적 정답 삽입을 통한 chain-of-thought 간략화
- 단일 질문 대응 포맷 표준화
- 생성 응답을 벤치마크 프롬프트로 검토한 후 커스터마이즈
무대 위 마지막 문제였던 문자열 분석(“ASEAN Impact League” 내 A와 E 문자의 수 합), 이른바 “Strawberry 문제”에서의 적중은 예상치 못한 최후의 승부수가 되었습니다. 준비된 전략이 현실을 바꾸는 순간이었습니다.
블릭스의 경험에서 배운 점
이번 여정은 여러 교훈을 남겨줍니다:
- 양보다 질이 중요하다: 대량 데이터셋은 오히려 성능 저하를 초래할 수 있음
- 하이퍼파라미터는 데이터 변화에 맞춰 유동적으로 조정해야 함
- 모델의 특성에 맞게 평가기 기준을 이해하고 대응 전략을 세워야 함
- 기술적 정답 외에도 평가자의 감성, 구조화 응답에 맞는 프롬프트 생성능력이 중요
- 커뮤니티 교류와 공동 실험은 큰 전략적 인사이트를 제공
결론
AWS AI League는 단순한 모델 튜닝 대회가 아니라, 클라우드 기반 AI 개발 환경에서 ‘어떻게 효과적으로 학습하고 최적화할 수 있는가’에 대한 실질적인 훈련장이었습니다. Amazon SageMaker JumpStart와 PartyRock, 그리고 Amazon Bedrock은 모델 학습 자동화와 활용 전략 수립 과정에서 직관적인 실험을 돕는 훌륭한 도구였습니다. 이러한 대회를 통해 학생, 개발자, 연구자가 협업하며 성장할 수 있다는 점에서 기술 이상의 가치를 전달합니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
