아마존 Textract, 문서 인식 정확도 및 기능 업데이트 – 더욱 진화한 문서 자동화 활용
기업의 디지털 전환이 가속화됨에 따라, 다양한 형식의 문서 데이터를 자동으로 식별하고 분석하는 능력은 업무 효율성과 정확성을 크게 향상시키는 데 핵심적인 역할을 합니다. 일반적인 OCR 기술 이상의 기능을 제공하는 Amazon Textract는 이러한 흐름의 중심에 있는 AI 기반 문서 분석 서비스입니다. AWS는 최근 Textract의 핵심 API인 DetectDocumentText와 AnalyzeDocument에 대한 정확도 향상 및 신규 기능 업데이트를 발표하였으며, 이는 문서 자동화와 활용에 있어 매우 중요한 개선입니다.
Textract API 업데이트 주요 내용
이번 업데이트는 사용자의 다양한 피드백을 바탕으로 텍스트 분석 정확도를 끌어올리고, 문서 처리 자동화의 디테일한 부분까지 개선하는 데 초점을 맞췄습니다. 구체적인 개선 내용은 다음과 같습니다.
-
첨자 및 회전 텍스트 인식 지원
새롭게 슈퍼스크립트(윗첨자) 및 서브스크립트(아래첨자)를 정확히 인식할 수 있게 되었으며, 문서 내부의 회전된 텍스트(예: 회의 자료나 이미지로 전송된 문서의 측면 텍스트)도 자동으로 식별되는 기능이 추가되었습니다. 이로써 문서의 정보 손실 없이 중요한 서식을 유지한 데이터 처리 자동화가 가능해집니다. -
시각적으로 유사한 문자 구분 정확도 강화
기계 학습 모델의 정교화로 인해 ‘0’(숫자)과 ‘O’(영문자)처럼 육안으로도 헷갈릴 수 있는 캐릭터 간의 식별력이 강화되었습니다. 이 점은 금융 문서, 고지서, 계약서와 같이 정확한 수치 인식이 필요한 경우에 유용하게 활용할 수 있습니다. -
박스 양식 형태와 저해상도 문서 대응 향상
박스 형태의 입력 양식 처리 시 테두리에 대한 식별력과 칸 안의 텍스트 인식 정확도가 높아졌으며, 그동안 문제로 지적되었던 팩스 문서와 같이 해상도가 낮은 이미지에서도 텍스트를 보다 정확히 추출할 수 있도록 개선되었습니다.
적용 가능 지역과 구축 가이드
이번 업데이트는 한국(서울)을 포함하여 미국, 캐나다, 유럽, 아시아 태평양 주요 리전에서 바로 적용할 수 있으며, 새로운 기능은 별도의 추가 설정 없이 API를 호출하는 방식만으로 활용할 수 있어 도입과 생산 배포(deployment)가 간편합니다. 이를 통해 다양한 문서 워크플로우를 자동화하는 기업 환경에서 빠르게 적용 가능하며, 정량적 정확도가 요구되는 분야(금융, 법률, 의료 등)에서 실질적인 문서 처리 성능을 기대할 수 있습니다.
활용 사례: 클라우드 기반 문서 분석 자동화
예를 들어, 보험사에서 접수되는 수천 건의 보험금 청구서, 계약서, 병원 진단서 등은 일반 스캔 문서로 접수되며, 이를 사람이 수작업으로 분류 및 분석하는 데 많은 시간이 소요됩니다. Amazon Textract를 API 형태로 연동하여 자동화 프로세스를 구성하면, 문서 전체에서 필요한 필드 정보만 추출하고, 텍스트나 숫자 값을 정확히 분석하여 후속 시스템으로 연동 또는 보관하는 것이 가능합니다.
그러므로 Textract는 단순한 OCR을 뛰어넘어 머신 러닝 기반의 시맨틱 데이터 추출 기능을 제공하여, 대한투자 효율성과 운영 자동화 수준을 한층 끌어올릴 수 있는 혁신적인 도구입니다.
맺음말
Amazon Textract의 텍스트 탐지 기능 업데이트는 정확도와 활용 범위를 확대하여, 더 많은 산업에서 고도화된 문서 분석 자동화를 구현할 수 있는 기반을 제공합니다. 회전 텍스트 인식, 첨자 지원, 유사 문자의 구분 향상 등은 실무에서의 다양한 문서 처리 시나리오의 오류율을 낮추고, 효율성을 극대화합니다. 이러한 AWS의 지속적인 기술 진보를 적극 활용함으로써 기업들은 문서 처리 워크플로우에서 보다 빠르고 정확한 결과를 기대할 수 있습니다.
https://aws.amazon.com/textract/
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기