다중 페이지 문서 자동 처리를 위한 Amazon Bedrock과 SageMaker AI 실전 가이드

다중 페이지 문서 처리, 자동화와 정확성을 동시에? Amazon Bedrock Data Automation과 SageMaker AI를 활용한 실전 가이드

기업들은 지능형 문서 처리(Intelligent Document Processing, IDP)에 대한 요구가 나날이 증가하는 가운데, 수많은 페이지로 구성된 문서의 데이터 추출 정확도와 업무 속도 간 균형을 유지하는 데 어려움을 겪고 있습니다. 오늘은 Amazon Bedrock Data Automation과 SageMaker AI를 조합하여 완전 자동화된 문서 처리 환경에 ‘사람의 검토’를 결합함으로써 정확도를 높이고, 자동화 효율성을 유지하는 방법을 소개합니다.

도입: 문서 처리 자동화의 다음 단계를 위하여

기존의 자동화 시스템은 PDF, 이미지, 영상, 오디오 등 다양한 형태의 비정형 데이터를 구조화된 정보로 변환하는 데 유용하게 쓰이고 있지만, 여전히 신뢰도가 낮거나 특수한 예외 상황에서는 인간의 판단이 필요했습니다. 이를 해결하고자 AWS는 2025년 3월, Amazon Bedrock Data Automation(BDA)를 출시했습니다. 이 서비스는 문서 이해, 데이터 정제, 모델 튜닝, 프롬프트 엔지니어링 등을 단일 API로 통합하여 자동화의 정확도를 획기적으로 높였고, 비용도 감소시켰습니다.

하지만 자동화만으로는 커버되지 않는 특수 상황과 신뢰도 문제를 해결하기 위해 Amazon SageMaker AI와의 연동을 통해 사람 검토 루프(Human Review Loop)를 삽입한 워크플로우 구성이 필요합니다.

본론: SageMaker AI를 통한 사람 검토 루프 통합 방식

Amazon Bedrock Data Automation은 문서 분할, 추출, 분류, 정규화, 시각화 기반의 신뢰도 스코어링과 설명 가능성(Explainability), 헛소리 억제(Hallucination Mitigation) 기능까지 제공합니다. 하지만 다음과 같은 경우에는 사람이 개입해야 합니다:

AI 예측의 신뢰도(Confidence Score)가 낮은 경우
반복되지 않는 예외적 구조의 문서
규제 준수 요구사항이 필요한 경우
시스템 성능 개선을 위한 피드백 루프 구성 시

Amazon SageMaker AI와 함께 구성한 아키텍처는 자동화 흐름 중 신뢰도 기준에 따라 사람이 검토하도록 문서의 특정 영역을 전달하고, 검토 후 정확한 데이터를 반영하여 최종 출력으로 활용되도록 구성됩니다.

문서 처리 전반에 사람 검토가 결합된 Amazon Bedrock과 SageMaker AI 아키텍처 다이어그램

이 구조는 다음과 같은 흐름으로 구성됩니다:

Amazon S3에 다중 페이지 문서 업로드
Amazon EventBridge가 파일 업로드를 감지하고 AWS Step Functions 실행 트리거
Lambda 함수가 Amazon Bedrock Data Automation을 호출하여 문서에서 정보 추출
추출된 결과와 신뢰도 스코어가 포함된 출력이 S3에 저장
또 다른 Lambda 함수가 신뢰도 기준(예: 70%)을 확인하여 검토 필요 여부 판단
검토 필요 시 SageMaker Ground Truth의 Private Workforce로 문서 전달
사람 검토자는 UI를 통해 결과 수정 및 검증
결과가 자동화된 출력에 반영되어 최종 고신뢰도 결과 파일 생성

신뢰도 스코어 활용법

Bedrock은 ECE(Expected Calibration Error) 기준 통계를 기반으로 추출 결과의 신뢰도를 계산합니다. 신뢰도에 따라 검토 흐름 적용 여부를 결정하는데 다음과 같은 기준을 적용할 수 있습니다:

90~100%: 높은 신뢰도, 검토 불필요
70~89%: 중간 신뢰도, 상황에 따라 검토 고려
70% 미만: 낮은 신뢰도, 사람 검토 필요

사용자는 테스트 데이터셋을 통해 조직에 적합한 기준을 설정하고 조정할 수 있습니다.

배포 및 구성 방법

해당 솔루션은 AWS CDK, Node.js, Docker가 설치된 환경에서 쉽게 배포 가능합니다. GitHub 소스코드를 클론하고 다음 명령어로 리소스를 배포합니다:

./build.sh

자동으로 생성되는 리소스는 다음과 같습니다:

입력 및 출력 전용 S3 버킷
Amazon Bedrock 프로젝트 및 청사진 5개
SageMaker Ground Truth용 Private Workforce (Amazon Cognito 로그인 포함)
AWS Lambda 함수 2개
Step Function Workflow
Amazon ECR 이미지 2개

Private Workforce 설정 및 테스트

배포 후 환경설정을 마친 다음, SageMaker 콘솔 > Ground Truth > Labeling workforce 섹션에서 새로운 사용자 초대 및 팀에 할당을 진행합니다. 이후 테스트 문서를 S3에 업로드하면 사람이 검토해야 할 지점만 선별되어 UI를 통해 손쉽게 수정하고 재저장할 수 있습니다.

SageMaker Ground Truth에서 새로운 워커를 추가하는 모습

결론: 문서 처리 자동화의 현실적인 완성형

Amazon Bedrock Data Automation과 SageMaker AI를 결합한 이 솔루션은 "자동화의 효율성"과 "사람의 정확성"을 전략적으로 결합한 형태입니다. 특히 산업별로 요구되는 특수 문서 처리, 규제 대응, 학습 데이터 확보, 고품질 태깅 등 다양한 활용 방안에서 유연하게 대응 가능합니다.

해당 구조는 한 페이지 문서뿐만 아니라 복잡한 다중 페이지 문서까지 효과적으로 지원하며, 실제 운영 환경에 바로 적용할 수 있도록 GitHub에서 샘플 구현까지 제공합니다. 조직만의 문서 처리 워크플로우에 맞춰 커스터마이징한다면 최대한의 효과를 기대할 수 있습니다.

https://aws.amazon.com/blogs/machine-learning/process-multi-page-documents-with-human-review-using-amazon-bedrock-data-automation-and-amazon-sagemaker-ai/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

다중 페이지 문서 자동 처리를 위한 Amazon Bedrock과 SageMaker AI 실전 가이드

카테고리