Fine-tuning Llama 3.2 11B for Visual Question Answering with AWS SageMaker and S3 Integration

Introduction

AWS는 최근 Amazon SageMaker 통합 스튜디오와 Amazon S3 범용 버킷을 통합함으로써 비구조화 데이터를 더욱 효과적으로 활용할 수 있는 새로운 기능을 발표했습니다. 이 글에서는 SageMaker를 활용하여 Llama 3.2 11B 모델을 시각적 질문 응답(VQA) 용도로 미세 조정하는 방법을 소개합니다.

본문

Amazon SageMaker 통합 스튜디오와 Amazon S3의 통합은 데이터 팀이 비구조화 데이터를 머신러닝(ML)과 데이터 분석에 쉽게 활용할 수 있도록 도와줍니다. 이 글에서는 Llama 3.2 11B Vision Instruct 모델을 사용하여 시각적 질문에 대한 정답을 예측합니다. 예를 들어, 영수증 이미지에서 거래 날짜를 식별하는 질문을 던질 수 있습니다.

영수증 이미지 예시

미세 조정 과정에서는 Hugging Face의 DocVQA 데이터셋을 사용하여 모델 성능을 향상시킵니다. 1,000, 5,000, 10,000개의 이미지 데이터를 포함한 세 가지 버전의 모델을 평가하고, SageMaker의 완전 관리형 서버리스 MLflow를 통해 실험을 추적합니다. 아래는 이 과정에 대한 고수준의 절차 흐름도입니다.

프로세스 흐름도

이 아키텍처는 데이터 수집, 전처리, 모델 학습 및 평가를 비롯한 다양한 단계를 포함합니다.

아키텍처

모든 프로세스는 아래와 같은 아키텍처에 기반합니다.

참조 아키텍처 다이어그램

이 아키텍처는 6단계로 나뉘며, Amazon S3에 데이터를 저장하고 Amazon SageMaker를 통해 이를 활용하는 방식입니다.

결론

데이터 세트의 크기가 증가함에 따라 ANLS 점수 또한 개선되었습니다. 이 글에서 소개한 AWS의 통합은 비구조화 데이터에서 ML 모델을 개발하는 과정을 간소화해 줍니다. 데이터 접근이 더욱 용이하며, 협업이 수월해졌습니다. 이를 통해 4.9%의 성능 개선을 달성할 수 있었습니다.

[1] https://aws.amazon.com/blogs/machine-learning/accelerating-llm-fine-tuning-with-unstructured-data-using-sagemaker-unified-studio-and-s3/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Fine-tuning Llama 3.2 11B for Visual Question Answering with AWS SageMaker and S3 Integration

Introduction

본문

아키텍처

결론

카테고리