메뉴 닫기

Amazon SageMaker AI를 활용한 에이전트의 도구 호출 정확도 향상 방법

Amazon SageMaker AI를 활용한 에이전트의 도구 호출 정확도 향상 방법

에이전트가 복잡한 작업을 자동으로 처리할 수 있도록 훈련하는 것은 현대 기술 환경에서 필수적인 과제가 되었습니다. 그러나 에이전트가 정확한 도구를 선택하지 않는다면, 이는 오류율 증가와 사용자 경험 저하로 이어질 수 있습니다. Amazon SageMaker AI을 활용해 SFT(지도형 미세 튜닝)와 DPO(직접 선호도 최적화)를 결합하여 도구 호출의 정확성을 향상시키는 방법에 대해 알아보겠습니다.

SFT와 DPO의 활용 및 방법론

**지도형 미세 튜닝(SFT)**는 모델이 수행해야 하는 특정 작업이나 도구와의 상호작용에 대해 명시적인 예시를 제시하여 학습합니다. 반면, **직접 선호도 최적화(DPO)**는 이러한 상호작용을 인간의 피드백이나 사전에 정의된 목표를 훈련 루프에 직접 통합하여 모델의 출력을 목표 결과에 맞추도록 조정합니다. 이러한 접근법은 리소스 요구사항과 훈련 시간을 줄이면서도 품질을 유지합니다.

DPO 훈련 흐름 다이어그램

Qwen3-1.7B 모델의 SageMaker AI 활용 예시

Qwen3-1.7B 모델을 SageMaker AI를 통해 훈련하면서 다양한 훈련 환경을 설정할 수 있습니다. 고성능의 클러스터를 필요에 따라 시작할 수 있고, 훈련이 끝나면 자원을 자동으로 종료해 비용을 절감할 수 있습니다. 특히 SFT와 DPO를 연계하면, 에이전트의 도구 호출 정확도를 대폭 향상시킬 수 있는 매우 강력한 프레임워크를 형성하게 됩니다.

예를 들어, NVIDIA가 제공한 When2Call 데이터셋을 통해 도구 호출 의사결정 과정을 검토하고, 훈련 데이터를 Amazon S3에 저장하여 모델의 파인 튜닝에 활용할 수 있습니다.

결론

Amazon SageMaker AI를 활용하여 SFT와 DPO를 결합함으로써 에이전트의 도구 호출 정확성을 크게 향상시킬 수 있음을 알 수 있었습니다. 이러한 방법론을 통하여 AI 모델의 정확성은 물론, 사용자의 기대에 부합하는 성능을 발휘할 수 있도록 합니다.

최신 AI 모델의 파인 튜닝 사례는 SageMaker AI generative AI samples GitHub 레포지토리에서 더 찾아볼 수 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/improve-your-agents-tool-calling-accuracy-with-sft-and-dpo-on-amazon-sagemaker-ai/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너