Amazon SageMaker AI와 Swift를 활용한 문서 자동 처리: VLMs 기반 JSON 변환 완전 가이드
서론
기업 현장에서 처리해야 할 문서 유형은 매우 다양합니다. 인보이스, 계약서, 세금 신고서, 급여 명세서, 신분증 등 다종다양한 문서를 수기로 처리하는 것은 높은 오류율과 낮은 생산성이라는 문제를 동반하곤 합니다. 특히 이 문서들이 일정한 형식 없이 비정형 또는 반정형 구조로 존재할 경우, 전통적인 OCR(문자인식기술)이나 규칙기반 시스템은 한계가 있습니다.
이에 대한 해법으로, 다양한 문서 유형을 고정된 JSON 포맷으로 정형화하는 지능형 문서 처리(Intelligent Document Processing, IDP) 기술이 주목받고 있습니다. 이 글에서는 Amazon SageMaker AI와 Swift 프레임워크를 활용하여 Vision Language Models(VLMs)을 파인튜닝하고, 멀티 페이지 문서를 자동으로 JSON으로 변환하는 전체 과정을 소개합니다. 이 글은 자동화, 활용 방안, 배포 가이드를 포함한 실무 중심의 내용을 담고 있습니다.
본론
지능형 문서 처리(IDP)의 진화
전통적인 문서 처리 시스템은 대부분 OCR 기반으로 텍스트를 추출하지만, 문서의 레이아웃이나 구조 변화에는 취약합니다. VLMs는 텍스트뿐 아니라 시각 정보까지 통합적으로 처리할 수 있어 문서의 의미를 보다 정확하게 추출할 수 있습니다.

IDP 전략 비교 및 최적 접근법
문서 처리에는 레벨에 따라 Zero-shot, Few-shot, RAG 기반 Few-shot, 파인튜닝 등 다양한 접근 방식이 있습니다. 일반적으로 전략이 복잡해질수록 정확도가 향상됩니다.

가장 고도화된 방식은 VLM 모델을 대상 문서 유형에 맞게 직접 파인튜닝하는 것입니다. 이는 정확도와 재현성을 가장 높일 수 있고, 구조화된 JSON 출력 생성에 유리합니다.
VLM을 활용한 문서-JSON 변환 아키텍처
기존의 문서 처리 시스템에서 생성된 역사적 데이터(JSON)와 해당 문서 이미지를 학습 자료로 활용하여 모델을 파인튜닝하면, 정형 데이터를 고정된 스키마(JSON)로 출력하는 모델을 개발할 수 있습니다.

모델 파인튜닝을 위한 데이터 구성 및 활용 방법
Swift 프레임워크는 멀티모달 학습을 위한 간결하면서 강력한 학습 데이터 양식을 요구합니다. JSONL 포맷을 기반은 하며, 각 문서 이미지와 그에 대응하는 JSON 구조에 맞춰 데이터 전처리, 키 정렬, 누락값 처리 등을 수행합니다. 학습 데이터로 활용한 Fatura2 데이터셋은 다양한 인보이스 레이아웃을 포함하며, 실제 기업 환경을 잘 반영합니다.
Amazon SageMaker AI 기반 모델 파인튜닝 자동화
파인튜닝은 Swift 프레임워크가 지원하는 PEFT(매개 변수 효율 최적화) 기법 중 LoRA, DoRA를 활용했습니다. SageMaker의 클러스터형 GPU 인프라에서 자동으로 학습할 수 있도록 배포 자동화 코드를 구성했습니다. 파인튜닝에는 약 300개의 예제 문서를 사용했으며, ml.g6.8xlarge 인스턴스에서 약 47분만에 완료되었습니다.
정량적 평가 결과 및 시각화 사례
모델 성능 평가는 EM(정확 일치율), CER(문자 단위 편집거리), ROUGE(n-gram 기반 유사도) 지표를 바탕으로 진행되었습니다. 평가 결과, 직접 파인튜닝한 Qwen2.5 VL 3B 모델은 구조 일치율과 추출 정확도 측면에서 최고의 성능을 기록했습니다.

모델 배포 방법 비교 및 가이드
- 옵션 A: SageMaker 엔드포인트 + 사용자 정의 Docker
가장 범용적이며 실시간 예측이 필요한 경우에 적합합니다. vLLM 기반 API 서버와 Swift 어댑터를 포함한 Docker 이미지를 Amazon ECR에 배포한 뒤, SageMaker 엔드포인트로 연결합니다.

-
옵션 B: Inference Components
복잡한 사전 처리 혹은 구성된 파이프라인 형태로 문서를 처리할 경우에 활용합니다.
-
옵션 C: Amazon Bedrock 사용자 정의 모델 등록
Bedrock 내에서 커스텀 모델을 등록하고 API 호출을 통해 활용 가능하며, Qwen2.5 구조도 지원됩니다.
리소스 정리(Clean-up)
모델 학습 후에는 사용하지 않는 리소스를 삭제하여 비용을 절감하는 것이 중요합니다. SageMaker 엔드포인트/모델, S3 저장소, ECR 이미지 등을 정리하여 비용 최적화를 수행합니다.
결론
Amazon SageMaker와 Swift 프레임워크를 활용한 Vision Language Model(VLM)의 파인튜닝은 다양한 형식의 문서를 구조화된 JSON으로 변환하는 데 매우 강력한 접근법입니다. 실무 응용 측면에서 정확도를 극대화할 수 있으며, 비용 효율성도 높은 편입니다.
해당 프로젝트는 약 1달러 미만의 비용으로 3B 파라미터 모델을 300개 문서에 대해 성공적으로 파인튜닝했습니다. 이를 통해 기업은 모든 문서 자동화를 실현할 수 있으며, ERP, BI, RPA 등 다양한 후속 시스템과 쉽게 연계할 수 있습니다.
이제 여러분만의 IDP 솔루션 구축을 시작해보세요. 전체 예제(Python 노트북, Docker, 평가 도구 등)는 깃허브 링크에서 확인할 수 있습니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
