아마존 AMET 결제팀의 테스트 자동화 혁신 사례

아마존 AMET 결제팀의 테스트 케이스 자동화: Strands Agents와 Amazon Bedrock 도입 사례

소개

지속적으로 새로운 기능을 릴리스하면서 품질을 유지하는 일은 많은 QA 팀에게 숙제입니다. 특히 페이먼트처럼 정밀한 도메인에서는 더욱 그렇습니다. 복잡한 비즈니스 요구사항을 수작업으로 테스트 시나리오로 변환하는 기존 QA 방식은 시간이 오래 걸리고 일관성이 떨어지는 문제가 있습니다. 이에 따라 Amazon의 AMET 결제팀은 테스트 케이스 생성 시간 단축 및 품질 향상을 위한 자동화 시스템 'SAARAM'을 개발했습니다. 이 글에서는 해당 시스템이 어떻게 Strands Agents와 Amazon Bedrock을 활용해 QA 업무를 개선했는지를 자세히 살펴보고, 유사한 과제를 가진 기업에게 어떤 기술적 시사점을 주는지를 공유합니다.

본론

Strands Agents 기반 멀티 에이전트 구조의 도입 배경

AMET 결제팀은 중동 및 북아프리카 5개국에서 월간 수백만 건의 거래를 처리합니다. 이들이 도입한 자동화 솔루션 SAARAM은 Amazon Bedrock과 Claude Sonnet 모델, Strands Agents SDK 기반으로 구성되어, 기존 1주일 걸리던 테스트 케이스 생성을 단 몇 시간 안에 자동화합니다.

기존 단일 에이전트 방식의 한계

처음에는 방대한 요구사항 문서(BRD)를 단일 AI 에이전트에 입력하여 테스트 케이스를 생성하는 방식이었으나, 구체성이 부족하고 거짓 출력(hallucination) 문제가 발생했습니다. 예를 들어 단순히 “결제가 잘 작동하는지 확인” 수준의 케이스가 생성돼 실제 비즈니스 로직을 충분히 반영하지 못했습니다.

단일 에이전트 아키텍처의 한계 다이어그램

사용자 중심 사고 전환 및 멀티 에이전트 설계

결정적인 전환점은 "AI가 어떻게 생각해야 하는가?" 대신 "인간 QA 전문가가 어떻게 사고하는가?"를 기준으로 멀티 에이전트를 구성하면서 시작됐습니다. 단계별 테스트 분석 프로세스를 구조화하고, 이를 독립적인 에이전트로 분리해 테스트 케이스가 생성되기까지의 흐름을 자동화했습니다. 이에는 고객 세그먼트 설정, 사용자 여정 분석, 상태 전이 다이어그램, UX 요구사항 시각화 등 다양한 프로세스가 포함됩니다.

SAARAM 워크플로우 1 아키텍처 다이어그램

워크플로우 2: 통합 분석 및 구조화 출력 설계

초기 워크플로우는 입력 유형 제한, 에이전트 간 연계 부족, 일관성 문제 등 한계가 있었습니다. 이를 개선하기 위해 모듈형 구조로 재설계한 워크플로우 2에서는 Figma 디자인, 코드 저장소, 다양한 문서를 입력으로 받아 병렬 처리가 가능하게 했고, 각 단계의 의미 있는 정보를 정제 구조화했습니다. 특히, 문서 요약과 다이어그램 정보를 통합하여 정확성과 일관성을 유지한 출력물을 생성할 수 있게 했습니다.

SAARAM 워크플로우 2 아키텍처 다이어그램

Strands Agents로 로직 자동화 및 구조화 출력 도입

Strands Agents SDK는 구조화된 출력(Pydantic 모델 기반)과 워크플로우 오케스트레이션 기능을 제공해, 에이전트 간 데이터 전달을 강건하고 예측 가능하게 만들었습니다. 특정 테스트 케이스 구조를 스키마로 정의하고 이를 강제함으로써 기존의 불확실한 LLM 출력의 문제를 해결했습니다. 병렬 처리와 의존성 기반 실행도 자동화되어 효율성이 향상됐습니다.

Amazon Bedrock 기반 SAARAM 배포 아키텍처

Amazon Bedrock 통합을 통한 확장성 확보

SAARAM은 Amazon Bedrock을 통해 Claude Sonnet 모델에 안정적으로 액세스하며, 컨텍스트 유지, 자동 확장, 세션 관리가 가능해져 엔터프라이즈급 배포가 가능해졌습니다. 특히 AgentCore Runtime과 Knowledge Bases를 활용하면 과거 테스트 사례를 학습하고, 새로운 시나리오에도 유사한 케이스를 자동 참조하여 테스트 신뢰도를 높일 수 있습니다.

결과 및 성과

자동화된 SAARAM 시스템은 다음과 같은 비즈니스 성과를 실현했습니다.

테스트 케이스 생성 시간: 1주에서 수 시간으로 단축
리소스 효율화: QA 엔지니어 1명 필요 → 검증만으로 0.2명 소요
케이스 커버리지 향상: 수동 대비 40% 이상 엣지 케이스 확보
일관성 유지: 테스트 스탠다드 100% 준수

이로 인해 결제 성공률과 사용자 만족도 역시 향상되었으며, 개발 속도도 증가했습니다.

결론

SAARAM 사례는 단순히 AI 기능을 추가하는 것이 아닌, QA 전문가의 사고방식을 시스템에 녹여내어, 자동화 기술과 인간 전문성을 조화롭게 통합한 예시입니다. 이는 단기적 생산성 향상 뿐만 아니라, 테스트 지식의 이관, 품질 유지 그리고 지속 가능한 테스트 자동화 문화를 가능하게 하는 기반을 마련합니다.

API 기반 자동화 도구, 구조화된 출력 유효성 검사, 컨텐츠 압축 패턴 도입 등은 오늘날 AI 기반 품질 보증 전략에서 꼭 주목해야 할 방법론입니다. 특히 다중 에이전트를 활용해 테스트 프로세스의 복잡성을 세분화한 방식은 향후 다양한 산업군에서 반복 가능하고 확장 가능한 모델이 될 것입니다.

향후 SAARAM은 리테일, 고객지원, 모바일 UI/UX 테스트 등으로 확장될 예정이며, 최종적으로 Amazon Bedrock AgentCore의 세션 관리, A/B 테스트, 오브저버빌리티까지 활용해 대규모 엔터프라이즈 운영에 적합한 품질 보증 플랫폼이 되는 것을 목표로 하고 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/how-the-amazon-amet-payments-team-accelerates-test-case-generation-with-strands-agents/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

아마존 AMET 결제팀의 테스트 자동화 혁신 사례

카테고리