지능형 문서 처리(IDP)를 위한 스키마 자동 생성
서론
다양한 문서 클래스에 대해 스키마를 생성하는 일은 지능형 문서 처리(IDP) 기술을 활용하는 데 필수적인 과정입니다. 수천 건의 문서를 다룰 때 어떤 클래스가 존재하는지 모를 경우, 이는 많은 수작업이 필요하여 IDP 프로젝트의 타당성을 떨어뜨릴 수 있습니다. 이 문제를 해결하는 AWS의 '다중 문서 발견 기능'에 대해 알아보겠습니다.
본문
신규 기술은 미지의 문서를 자동 분석하여 유형별 군집을 형성하고, IDP 가속기에 활용할 수 있는 스키마를 생성하는 과정을 자동화합니다. 이 기능은 Amazon Bedrock을 통해 제공되는 시각적 임베딩을 사용해 문서 군집화와 Strands 에이전트를 통한 스키마 생성을 지원합니다.

기술을 실행하는 첫 단계는 Amazon S3에 저장된 문서를 벡터 임베딩으로 변환하는 것입니다. 그 후, 판단 에이전트가 각 문서군의 타입을 구분하여 스키마를 생성합니다. 초기 준비가 필요 없이 대량의 문서에 IDP 기법을 신속하게 적용할 수 있습니다.
사례
임베딩과 군집화를 평가하기 위해 Cohere Embed v4와 OCR-benchmark 데이터셋으로 실험을 진행했습니다. 군집 분류 지표로 '실루엣 스코어'를 적용하여 군집화를 평가했습니다. 그 결과, 문서 유형이 명확히 구별되는 것을 확인할 수 있었습니다.
결론
자동 스키마 생성 솔루션은 문서 개체의 미지성을 해소하여 구조적 스키마를 제공하는 데 기여합니다. 이를 통해 IDP 가속기에 필요한 준비 과정을 최소화하고, 다양한 문서 클래스에 대한 클러스터링과 스키마 생성을 자동화할 수 있습니다.
[1] 원문 URL: [https://aws.amazon.com/blogs/machine-learning/automate-schema-generation-for-intelligent-document-processing/]
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
