AWS 기반 엔터프라이즈 RAG 시스템 구축과 활용 전략

기업 RAG 시스템 구축: AWS 기반 PDIQ 사례로 본 도입 가이드와 활용 전략

도입
기업 내 지식 기반을 보다 효율적으로 검색, 활용하기 위한 AI 시스템 도입이 가속화되고 있습니다. 특히 Retrieval Augmented Generation(RAG)은 위치 기반 검색 기능과 생성형 AI의 융합을 통해 정형·비정형 데이터를 정밀하게 응답에 활용할 수 있는 기술입니다. 이번 블로그에서는 글로벌 유통 및 석유 소프트웨어 공급사인 PDI Technologies가 AWS를 활용해 구축한 엔터프라이즈급 RAG 솔루션인 PDIQ(PDI Intelligence Query)의 활용, 구성, 자동화 전략을 구체적으로 분석하고, 이를 통해 얻은 기업적 성과와 배치 가이드를 공유합니다.

본론

구축 배경과 과제
PDI Technologies는 정형화되지 않은 다양한 내부 데이터 출처(Confluence, 웹사이트, SharePoint, DevOps 등)로 인해 지식 획득 및 활용에 어려움을 겪고 있었습니다. 이를 해결하기 위해 구성원들이 내부 정보를 쉽게 검색하고 활용할 수 있는 AI 챗봇 기반의 검색 소프트웨어인 PDIQ를 도입했습니다. 이 시스템은 AWS 서버리스 아키텍처를 기반으로 구축되었으며, 다음과 같은 주요 도입 과제를 해결하였습니다:

다양한 인증 요구 사항을 가진 소스에서 콘텐츠 자동 크롤링
콘텐츠를 의미 기반으로 처리하고 검색 가능하도록 인덱싱
기업별 문맥을 반영해서 AI 응답 정확성 강화
정기적인 정보 동기화 및 크롤러 스케줄링 자동화
다양한 LLM 모델 간 유연한 교체 및 조합 사용

아키텍처 설계 및 주요 구성 요소
PDIQ의 전체 아키텍처는 강력한 데이터 파이프라인부터 사용자 인터페이스까지 완전한 여정을 포함하며, 제로 트러스트 보안 모델을 결합해 구성되어 있습니다.

PDIQ 시스템 아키텍처 다이어그램

주요 구성 요소:

Amazon EventBridge: 주기적 크롤링 스케줄 관리
AWS Lambda + Amazon ECS: 크롤러 실행 자동화
Amazon S3 + SNS + SQS: 문서 저장, 변경 이벤트 감지 및 전송
Amazon DynamoDB: 크롤러 메타데이터 및 이미지 설명 저장
Amazon Bedrock: 문서 요약 및 벡터 임베딩 생성을 위한 LLM API (Amazon Nova, Titan Embeddings 등)
Amazon Aurora PostgreSQL: 벡터 데이터 저장소

문서 크롤링 및 지식 축적 흐름
PDIQ는 웹, Confluence, Azure DevOps, SharePoint 등 다양한 데이터 소스의 콘텐츠를 자동으로 수집하도록 설계된 크롤러 구성 기능을 제공합니다.

지식베이스 생성 UI 이미지

크롤러는 OAuth, PAT, REST API 등 다양한 인증 방식과 연동되며, 다음과 같은 기능을 지원합니다:

HTML → Markdown 변환 및 내장된 링크 추적
이미지/파일 다운로드 및 S3에 저장하여, 인덱싱 최적화
계층 구조 유지 및 정보 박스 등의 특수 요소 처리

이미지 및 문서 처리 자동화
크롤링된 문서는 Amazon S3에 저장되며, 이미지의 경우 LLM을 통해 자동 캡션을 생성하고, 이를 원본 Markdown에 삽입함으로써 검색 가능성을 크게 높입니다.

예시: 이미지 – 암호 알림 메시지를 포함한 화면을 캡처한 보안 팁 이미지

이후, 문서는 다음과 같은 순서를 거쳐 임베딩 처리가 진행됩니다:

전체 문서 요약 생성(Amazon Nova Micro)
문서를 70% 토큰 기반으로 분할하고, 10% 중첩 적용
각 청크 상단에 요약 추가하여 일관된 문맥 확보
Amazon Titan V2 Embeddings로 벡터 생성 및 저장

이 방식은 단순 단락 기반 검색보다 정확도를 60% → 79%로 향상시켰으며, 요약 기반 유사 문서 검색이 가능해져 고도화된 질의 응답을 지원합니다.

제로 트러스트 보안 모델 및 역할 분리
PDIQ는 Cognito 연동을 통해 관리자와 최종 사용자 역할을 분리하며, 권한 그룹별로 접근 가능한 데이터셋을 다르게 설정할 수 있습니다. 각 크롤러 인증 정보는 AWS KMS를 통해 암호화되어 격리된 환경에서만 액세스되며, 애플리케이션 계층에서는 그룹 권한을 기반으로 결과 제한이 이루어집니다.
LLM을 활용한 응답 응용
최종 사용자 입력은 유사도 검색을 통해 가장 적합한 청크를 찾은 후, 해당 청크의 원문 문서 및 이미지와 함께 Amazon Nova Pro를 통해 응답이 생성됩니다. 이는 사내 다양한 지원 부서, 예컨대 고객 지원팀, HR, 규제 부서 등에서 상황별 지식 탐색 도우미 역할을 수행할 수 있습니다.

성과 및 다음 로드맵
PDIQ를 통해 PDI Technologies는 다음과 같은 주요 성과를 달성했습니다:

반복 문의 자동화로 업무 부담 감소 및 처리 시간 단축
고객 만족도 지표(NPS, CSAT) 상승과 브랜드 충성도 제고
콘텐츠 업데이트 자동화 및 시스템 확장성 강화
부서별 맞춤형 지식 처리 가능한 유연한 플랫폼
서버리스 아키텍처를 통한 비용 최적화 및 무중단 운영

향후에는 GitHub 연동 크롤러, 멀티언어 대응, 이벤트 기반 호출기능, 에이전틱 구조 연동 등이 적용될 예정입니다.

결론
기업 내 지식의 자동화된 수집, 가공, 검색, 응답 과정을 통합하는 RAG 시스템은 기존 문서형 지식 전달의 한계를 극복할 수 있는 효과적인 대안입니다. PDIQ 사례는 AWS의 서버리스 서비스(Amazon Bedrock, Lambda, Aurora 등)를 기반으로 대규모 데이터를 자동으로 처리하고, 비즈니스 사용자에게 정밀한 정보를 제공하는 성공적인 배포 가이드라인이 됩니다. 특히 문서 자동 요약 및 이미지 캡션 삽입, 청크 기반 문맥 검색 전략 등은 LLM 기반 검색 정확도 향상에 매우 효과적이며 향후 다양한 기업 환경에 맞춤 적용이 가능합니다.

[1] https://aws.amazon.com/blogs/machine-learning/how-pdi-built-an-enterprise-grade-rag-system-for-ai-applications-with-aws/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

AWS 기반 엔터프라이즈 RAG 시스템 구축과 활용 전략

카테고리