메뉴 닫기

AWS를 활용한 은행 데이터 민감 정보 제거 솔루션

AWS를 활용한 대규모 민감 데이터 처리 솔루션

서론

대형 은행, 헌팅턴 내셔널 뱅크는 오랜 기간 축적된 수억 건의 문서에서 민감한 데이터를 체계적으로 탐지하고 제거해야 하는 과제에 직면했습니다. 해당 과제는 수년이 소요될 것으로 예상됐지만, AWS의 다양한 서비스들을 활용하여 이 시간을 몇 달로 단축할 수 있었습니다.

본문

민감 정보의 대규모 제거

헌팅턴 내셔널 뱅크는 2015년부터 문서를 안전하게 저장해왔으며, 2025년 이를 클라우드 기반 시스템으로 이동, 처리하여 민감한 데이터를 제거하기 시작했습니다. 이 과정은 Amazon Textract, Amazon SageMaker, AWS Step Functions, AWS Lambda와 같은 AWS 서비스를 활용하여 자동화되었습니다. 이 솔루션은 다양한 문서 형식을 처리할 수 있는 유연성과 수백만 문서를 신속히 처리할 수 있는 용량을 요구했습니다.

문서 편집 솔루션 고수준 아키텍처 다이어그램

데이터의 안전한 전송

문서들은 AWS DataSync와 AWS Direct Connect를 통해 Amazon S3에 안전하게 전송되었습니다. AWS KMS를 활용하여 전송 중인 데이터와 저장된 데이터 모두 암호화 되었습니다. AWS DataSync는 이 과정에서 전체 워크플로의 데이터 흐름 및 오류 제어 역할을 하였습니다.

AWS DataSync를 통한 데이터 전송 아키텍처

Amazon Textract를 통한 데이터 감지

Amazon Textract는 문서에서 텍스트를 추출하고, 민감 데이터를 효과적으로 감지하였습니다. 이 서비스는 금융 문서에서 사회 보장 번호, 계좌 번호, 개인 주소 등을 자동 감지하는 데에 사용되었습니다.

처리 속도의 확장

매일 수백만 건의 문서를 처리하기 위해 AWS 서비스의 쿼터 조정이 필요했습니다. AWS Step Functions의 map state는 문서 컬렉션을 분산 모드로 처리하여 병렬 처리를 가능하게 했습니다.

AWS Step Functions를 활용한 워크플로 다이어그램

민감 정보의 제거와 반환

텍스트 감지 단계 이후, 민감한 정보 제거 작업이 PyMuPDF와 같은 소프트웨어를 통해 이루어졌습니다. 헌팅턴은 AWS Step Functions를 사용하여 문서 적재 및 오류 제어 로직을 구현하여 수백만 건의 문서를 효율적으로 처리하였습니다. 최종적으로, 민감 정보가 제거된 문서는 AWS DataSync를 통해 온프레미스로 복구되었습니다.

결론

AWS를 통해 헌팅턴은 수년에 달할 처리를 몇 달로 단축하면서도 처리 비용을 5%로 감축하였습니다. 본 프로젝트는 대규모 데이터 처리 및 민감 정보 제거 솔루션 설계에 있어 AWS 서비스의 활용 가능성을 보여줍니다.

[1] https://aws.amazon.com/blogs/machine-learning/huntington-bank-redacting-sensitive-data-from-400m-documents-with-aws/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너