메뉴 닫기

Amazon Nova Sonic과 Bedrock AgentCore로 구축하는 멀티 에이전트 음성 비서

AI 음성 비서, 아직도 단일 모델만으로 구축하고 계신가요? 복잡한 대화 흐름과 다양한 도메인 요구사항을 담기에는 단일 설계에 한계가 있습니다. 이번 글에서는 Amazon Nova Sonic과 Bedrock AgentCore를 활용해 멀티 에이전트 음성 비서를 구축하는 방법과 활용 사례를 소개합니다. 특히 금융 예제를 중심으로 다양한 서브 에이전트를 어떻게 구성하고 배포하는지, 그리고 어떤 아키텍처 이점이 있는지를 실전 코드와 함께 살펴보겠습니다.

멀티 에이전트 아키텍처의 필요성

기존의 음성 AI 시스템은 대부분 단일 모델 기반으로 구현되어, 기능이 확장될수록 설정 프롬프트도 비대해지고 유지보수가 어려워지는 문제가 있었습니다. 예를 들면, 사용자 온보딩, 계좌 확인, 대출 조회, 예외처리, 상담원 연결 등 여러 기능을 하나의 로직 안에 구현한다면 점점 복잡도는 증가하며 성능도 저하되고 유연성도 떨어집니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 멀티 에이전트 아키텍처입니다. 기업 조직이 각 부문에 전문 인력을 배치하듯, AI도 기능별로 전문화된 서브 에이전트를 운영하는 구조로 전환함으로써 모듈화, 재사용성, 자동화 및 확장성을 확보할 수 있습니다.

멀티 에이전트 아키텍처는 마이크로서비스 디자인 패턴과 유사하게 작동해, LLM(대형언어모델) 기반의 업무 흐름을 재사용하거나 병렬 운영하는 데도 유리합니다.

사례: 금융 음성 비서와 Nova Sonic

Amazon Nova Sonic은 실시간 음성 대화를 자연스럽게 처리하는 음성-음성 기반 생성형 AI 모델입니다. 자연스러운 억양, 흐름 제어, 음성 기반 입력 이해 및 행동 유도까지 가능하여, 인간과 같은 대화를 구현할 수 있습니다.

본 아키텍처에서는 Nova Sonic이 사용자와 직접 대화를 담당하며, Amazon Bedrock AgentCore에 호스팅된 서브 에이전트들이 실제 처리를 수행합니다. 예를 들어 아래와 같은 구조에서 Nova Sonic은 입력을 받고 적절한 툴 이벤트(toolUse event)를 발행해 해당 서브 에이전트를 호출합니다.

Nova Sonic과 Bedrock AgentCore 통합 멀티 에이전트 아키텍처 다이어그램

예시 환경에서는 다음과 같은 세 개의 서브 에이전트가 활용됩니다:

  • 인증 에이전트: 사용자 계좌 확인 및 인증 처리
  • 금융(뱅킹) 에이전트: 잔액 조회, 거래 내역 확인 등 계좌 관련 질의 처리
  • 모기지(대출) 에이전트: 대출 금리, 상환 방법 안내 등 관련 질의

이 서브 에이전트들은 독립적으로 설계되었기 때문에 기능별 입력 검증과 로직을 자체적으로 해결할 수 있습니다. 이를 통해 Nova Sonic 본체는 로직 단순화와 분산처리에 집중할 수 있습니다.

구현 예: 금융 서브 에이전트 코드

Amazon Bedrock AgentCore에서 동작하는 금융 에이전트는 Python 기반으로 작성되며, Nova Sonic의 툴 사용 이벤트를 토대로 은행 관련 질의를 처리합니다. 모델로는 Latency와 성능의 균형을 위해 Amazon Nova Lite를 사용합니다.

get_account_balance()와 get_statement() 함수는 실제 DB 또는 API 연동을 통한 정보 조회를 대신하며 다음과 같이 작동합니다:

  • 툴 명세(toolSpec)를 기반으로 툴 호출
  • 유효한 계좌 ID와 질의 내용 검증
  • 정보 처리 및 자연어 요약 반환

정책적으로는 응답은 항상 자연어로 구성되며, JSON 결과 그대로 전달하지 않습니다. 음성 응답 용도로 최적화된 형식을 유지함으로써 사용자 몰입도를 향상시킵니다.

음성 중심 시스템을 위한 자동화 배포 가이드와 모범 사례

  1. 지연 시간 최소화 설계:
    음성 기반 상호작용에서 각 에이전트 호출은 하나의 지연 요소가 됩니다. 따라서 Nova Sonic의 툴 이벤트 사용 시, 응답 대기시간(latency)를 최소화할 수 있도록 경량화된 모델(Nova Lite 등)을 우선 활용하는 것이 중요합니다.

  2. 음성 최적화 응답 설계:
    짧고 명확한 음성 응답을 우선 제공하되 추가정보가 필요한 경우 후속 대화를 유도하는 방식으로 설계하세요. 이는 사람과의 대화 패턴과 같아 사용자 만족도를 높이고 시스템 효율성도 향상됩니다.

  3. 상태 관리 전략:

    • Stateless 방식: 단순 질의 처리에 적합하며 확장성이 우수
    • Stateful 방식: 멀티턴 대화나 세션 중심의 맥락 관리에 유리하지만 구현 복잡도 증가

각 시나리오에 따라 적절한 설계를 선택해야 합니다.

결론

Amazon Nova Sonic과 Bedrock AgentCore를 활용한 멀티 에이전트 아키텍처는 음성 인터페이스 기반의 AI 애플리케이션을 보다 정확하고 유연하게 설계할 수 있는 획기적인 방법입니다. 단일 LLM 모델 활용의 한계를 극복하고, 기능별 자동화된 모듈로 확장 가능한 시스템을 구현하고자 한다면 지금 바로 Nova Sonic 기반 음성 AI를 활용해 보세요.

https://aws.amazon.com/blogs/machine-learning/building-a-multi-agent-voice-assistant-with-amazon-nova-sonic-and-amazon-bedrock-agentcore/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너