Pushpay의 Amazon Bedrock 기반 에이전틱 AI 검색 시스템 구축 사례

AWS Bedrock 기반으로 구현한 Pushpay의 에이전틱 AI 검색 시스템 구축 사례

최근 비즈니스와 기술의 접점에서 빠르게 주목받고 있는 주제가 바로 '에이전틱 AI(Agentic AI)'입니다. 단순한 프롬프트 응답형 AI를 넘어서, 특정 업무를 지능적으로 수행하도록 설계된 에이전트 기반의 자동화 시스템이 다양한 분야에서 활용되고 있으며, 그 활용 사례 중 하나가 바로 Pushpay가 Amazon Bedrock을 활용해 구축한 AI 검색 기능입니다.

이 글에서는 Pushpay의 구축 사례를 중심으로, Amazon Bedrock의 활용법, 제품 배포 가이드, 자동화, 프롬프트 평가 시스템, 도메인 기반 점검 방식 등 실제 현장에서 요구되는 기능을 어떻게 구현하고 최적화했는지 알아보겠습니다.

도입부: 민첩하고 신뢰할 수 있는 AI 검색을 위한 출발

Pushpay는 교회와 신앙 공동체를 위한 기부 및 교회 운영 플랫폼을 제공하는 SaaS 기업으로, 고객군의 특성과 니즈를 반영한 AI 검색 기능을 도입했습니다. 기존에는 복잡한 필터를 일일이 수작업으로 설정해야 했으나, 이제는 “올해 기부하지 않은 소그룹 멤버를 보여줘”와 같이 자연어로 질의할 수 있습니다.

이러한 기능은 기술적 배경이 부족한 사역자나 조직 관리자에게도 빠르고 효율적인 커뮤니티 인사이트 도출을 가능하게 합니다.

기능 구현 및 아키텍처

Pushpay의 AI 검색 기능은 에이전틱 AI 구조 위에 다음과 같은 핵심 구성요소를 포함합니다.

사용자 인터페이스: 기존 애플리케이션 내에서 자연어 질문 입력
AI 검색 에이전트:

시스템 프롬프트: 역할 및 인스트럭션 포함
동적 프롬프트 생성기(Dynamic Prompt Constructor): 교회별 맥락을 반영한 맞춤형 필터 프롬프트 자동 생성

Amazon Bedrock 기능 활용:

Claude Sonnet 4.5 기반 LLM 처리
프롬프트 캐싱을 통한 성능과 비용 최적화

평가 시스템 도입:

사용자 입력 및 결과 캡처 및 평가 후 대시보드 제공
데이터 기반 반복 개선 루프 구성

AI 검색 솔루션 아키텍처 다이어그램

평가 시스템 없이 한계에 부딪힌 초기 모델

처음에는 정적 시스템 프롬프트를 중심으로 단일 에이전트 구조를 구성했지만, 약 60~70% 정확도 수준에서 성능이 정체되었습니다. 필터 수가 100여 개가 넘는 복잡한 설정과 다양한 사용자 질의층으로 인해 프롬프트 튜닝만으로는 한계에 봉착했던 것입니다.

AI 검색 초기 버전 다이어그램

전환점: 생성형 AI 평가 프레임워크 도입

이를 극복하기 위해 Pushpay는 자체 AI 평가 프레임워크를 구축했습니다. 이는 반복적인 성능 개선을 자동화하고 개발 속도를 획기적으로 향상시켰는데, 아래의 4가지 요소로 구성되어 있습니다:

골든 데이터셋: 약 300개의 실제 사용자 질의와 기대 출력으로 구성
평가기: LLM-as-a-Judge 방식으로 에이전트 출력 정량 평가
도메인 카테고리 분류: 정규식과 AI 요약을 활용해 질의 도메인화
대시보드: 도메인별 정확도/지연 시간 지표를 시각화

생성형 AI 평가 프레임워크 구조

이 시스템은 각 질의의 정확도 분포와 병목 현상을 도메인별로 시각화해줍니다.

도메인별 정확도 시각화

성능이 낮은 도메인을 즉시 구분할 수 있으며, 실제로 사용량이 많은 ‘활동’ 도메인에서 정확도 및 지연이 저조함이 확인되었습니다.

도메인별 지연 시간 분석 이미지

전략적 도메인 롤아웃

이러한 도메인 기반 지표를 활용해 성능이 우수한 기능군부터 단계적으로 최종 사용자에게 배포하였고, 결과적으로 95% 이상의 정확도를 달성하며 프러덕션 수준으로 진입하게 됩니다.

도메인별 배포 전략 다이어그램

또한, 비즈니스 임팩트 기준을 고려한 ‘2×2 전략적 우선순위 매트릭스’로 각 도메인의 개선 순서를 체계적으로 설정했습니다.

전략적 우선 순위 매트릭스 다이어그램

동적 프롬프트 생성기(DPC)의 역할

정적 구조의 한계를 극복하기 위해 프롬프트의 핵심 정보(필터 목록 등)를 동적으로 구성할 수 있도록 개선했습니다. 이를 통해 사용자 질의, 페르소나, 테넌트 맥락을 바탕으로 맞춤형 프롬프트가 생성되어, 응답 품질이 한층 향상되고 반복 개선이 용이해졌습니다.

비즈니스 성과

Pushpay의 AI 검색 시스템은 다음과 같은 실질적인 성과를 가져왔습니다.

사용자 경험: 평균 응답 시간 120초 → 4초, 데이터 활용 민주화 실현
개발 속도: 실시간 성능 비교를 통한 빠른 개선 주기
배포 준비가 된 정확도: 성능 높은 도메인부터 안정적으로 배포 가능

결론 및 실무 활용 팁

Pushpay 사례는 단순한 AI 프롬프트 개선이 아닌, 체계적인 반복 평가 프레임워크 도입이 얼마나 중요한지를 보여줍니다. 여기에 Amazon Bedrock의 프롬프트 캐싱, LLM-as-a-Judge 평가, 도메인 기반 판단 기능을 활용함으로써 고도화된 생산성 향상을 이루었습니다.

이와 같은 배포 가이드를 참고하여 다음과 같은 실무 적용 전략을 추천합니다:

PoC 단계부터 프러덕션 확장을 고려한 평가 시스템 설계
Amazon Bedrock 기능 활용(프롬프트 캐싱, Claude 모델 통합 등)
도메인 기반 성능 모니터링을 통한 체계적 문제 해결
보안과 AI 책임 원칙을 아키텍처 설계 초기부터 내재화

[1] https://aws.amazon.com/blogs/machine-learning/build-reliable-agentic-ai-solution-with-amazon-bedrock-learn-from-pushpays-journey-on-genai-evaluation/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Pushpay의 Amazon Bedrock 기반 에이전틱 AI 검색 시스템 구축 사례

카테고리