Amazon Nova 모델을 SageMaker에서 DPO 기반으로 커스터마이징하는 자동화 가이드

아마존 Nova 모델을 SageMaker AI로 커스터마이징하는 방법: DPO 기반 활용 사례와 가이드

최근 뉴욕에서 열린 AWS Summit에서는 Amazon SageMaker AI를 활용하여 Amazon Nova 기초 모델을 도메인 특화 형태로 쉽게 커스터마이징할 수 있는 기능이 공개되었습니다. 이 기능들 중 하나인 Direct Preference Optimization(DPO)은 사용자의 선호 기반으로 모델 출력을 자동 조정하도록 설계되어, 실제 비즈니스 환경에서 유용한 응답 생성 능력을 높이는 데 적합합니다.

본 글에서는 Amazon Nova Micro 모델을 중심으로 SageMaker training job을 활용하여 DPO 기반 튜닝을 구성하고, 성능을 평가하고, Amazon Bedrock으로 배포하는 전체 자동화 파이프라인을 상세하게 소개합니다.

Amazon Nova 커스터마이징 개요

Nova Micro 모델은 SageMaker AI 내에서 쉽고 유연하게 튜닝할 수 있는 구조를 제공합니다. 개발자는 SageMaker HyperPod나 training job을 통해 배포 가능한 레시피를 선택하고, 이를 활용해 모델 하이퍼파라미터, 학습 전략 등을 한눈에 관리할 수 있습니다.

DPO는 사용자가 선호하는 응답과 그렇지 않은 응답 쌍을 기반으로 모델을 반복 학습시키며, 이는 Amazon Bedrock에 커스터마이즈된 모델로 배포되어 다양한 서비스와 자연스럽게 연동될 수 있습니다.

Amazon Nova 모델 커스터마이징을 위한 SageMaker 워크플로우 다이어그램

실제 비즈니스에서의 활용 사례

본 활용 사례에서는 Nova Micro 모델을 기반으로 다양한 툴 호출(function-calling)이 필요한 애플리케이션 워크플로우를 위해 모델을 튜닝했습니다. nvidia/When2Call 데이터셋을 기반으로 툴 실행 여부에 따라 선호된 응답을 선택하고, 이를 통해 고객 문의 자동화나 백엔드 작업 트리거링 시 모델이 보다 정확하고 상황에 맞는 결정을 내릴 수 있게 되었습니다.

이 결과 F1 점수가 81%, ROUGE 지표는 42%까지 상승하며 기존 모델 대비 확연한 성능 개선을 나타냈습니다.

DPO를 사용한 툴 함수 호출 구조 다이어그램

데이터 준비 및 학습 구성 자동화

DPO 기반 학습을 위해서는 먼저 Hugging Face의 When2Call 데이터셋을 로드하고, jsonl 형식으로 전처리 및 Amazon S3에 업로드합니다. 그런 다음 SageMaker PyTorch Estimator를 사용해 레시피와 함께 학습 설정을 구성하고 training job을 실행합니다.

모든 과정은 코드 내에서 recipe_overrides를 통해 매우 유연하게 조정 가능하며, 모델이 완료되었을 때 결과 파일은 안전한 escrow S3 버킷에 자동 저장됩니다. 이를 기반으로 향후 배포나 추가 평가 시 손쉽게 참조할 수 있습니다.

모델 성능 평가

검증된 모델의 정량적 성능 평가를 위해 SageMaker evaluation recipe를 사용합니다. 대표적으로 gen_qa와 llm_judge task를 사용하여, 생성된 응답에 대한 정확도와 사용자 선호도를 측정할 수 있습니다.

gen_qa 평가 결과 요약 그래프

llm_judge 사용자 선호 평가 그래프

평가 결과, 커스터마이징된 Nova 모델은 F1 점수에서 81% 향상, ROUGE-1 및 ROUGE-2에서 각각 39%, 42% 향상을 나타내었으며, llm_judge 기반 선호도에서는 66.2%에서 우위를 차지하는 등 전체적으로 높은 성능을 입증했습니다.

Amazon Bedrock으로 모델 배포 자동화

SageMaker 학습이 완료된 후에는 Amazon Bedrock의 CreateCustomModel API를 통해, 학습된 모델을 사용한 실시간 AI 응답 서비스를 구축할 수 있습니다. 오디온 디플로이먼트(On-demand Deployment)를 지원하여, 고객 요청에 대한 실시간 추론이 가능하고 다양한 도구들과 통합하여 자동화된 워크플로우를 구성할 수 있습니다.

모델은 AWS SDK나 API를 통해 손쉽게 모델 호출이 가능하며, 추론 중 도구 호출 여부, 파라미터 선택 등에 있어 개선된 응답 품질을 확인할 수 있습니다.

결론

SageMaker와 Amazon Bedrock을 활용한 Amazon Nova 모델의 DPO 기반 커스터마이징은 개발자에게 높은 수준의 제어권을 제공하면서도, 관리형 학습, 배포, 평가 환경을 통해 전체 프로젝트를 자동화할 수 있게 해줍니다. 특히 특정 도메인에 최적화된 워크플로우 자동화, 고객 상담 인공지능, 디지털 비서 구축 등 다양한 비즈니스 활용에 있어 성능과 효율성의 균형을 동시에 달성할 수 있는 접근법이라 할 수 있습니다.

DPO 튜닝 외에도 다양한 학습 기술이 포함된 Amazon Nova의 SageMaker 레시피는 지속적으로 확장되고 있으며, AI 모델을 직접 커스터마이징하려는 기업이나 개발자에게 실질적인 도움을 줄 수 있습니다.

https://aws.amazon.com/blogs/machine-learning/customize-amazon-nova-in-amazon-sagemaker-ai-using-direct-preference-optimization/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Amazon Nova 모델을 SageMaker에서 DPO 기반으로 커스터마이징하는 자동화 가이드

카테고리