Amazon SageMaker AI의 양방향 스트리밍 추론 기능 소개 및 활용 가이드
2025년 현재, 생성형 AI는 단순한 텍스트 생성에서 오디오 전사, 음성 번역, 실시간 음성 인식 등 다양한 멀티모달 활용 사례로 진화하고 있습니다. 특히 실시간 AI 응답이 필수적인 응용 프로그램에서는 사용자와 AI 모델 간의 자연스러운 쌍방향 대화가 중요해졌습니다. 이를 위한 핵심 기술이 바로 양방향 스트리밍이며, 이 기술을 통해 Amazon SageMaker AI에서 실시간 음성 기반 추론 기능을 손쉽게 구축할 수 있습니다.
SageMaker AI 양방향 스트리밍 추론 기능이란?
전통적인 AI 추론 방식에서는 사용자가 데이터를 일괄 전송하면 모델이 이를 처리한 후 전체 응답을 반환해야 했습니다. 반면, Amazon SageMaker AI의 새로운 양방향 스트리밍 API는 클라이언트와 모델 간의 지속적인 연결을 유지하면서 데이터가 동시에 양방향으로 흐르도록 설계되어 있습니다. 이 방식을 통해, 예를 들어 음성 → 텍스트 전환 시 사용자가 말하는 즉시 텍스트가 생성되는 진정한 실시간 처리가 가능합니다.

기본 아키텍처와 동작 방식
Amazon SageMaker AI에서 양방향 스트리밍 추론은 HTTP/2와 WebSocket 프로토콜을 조합하여 클라이언트와 AI 모델 컨테이너 간의 실시간 통신을 구현합니다.
- 클라이언트 → SageMaker AI 라우터: 클라이언트는 HTTP/2로 SageMaker AI 엔드포인트에 연결하여 효율적인 양방향 통신을 시작합니다.
- 라우터 → 모델 컨테이너: 라우터는 모델 컨테이너의 사이드카 프록시에 요청을 전달하고, WebSocket을 통해 모델 컨테이너에 연결합니다.
- 데이터 흐름: 오디오나 텍스트 입력은 HTTP/2 요청을 통해 WebSocket 프레임으로 변환되어 모델에 전달되며, 모델 응답은 다시 WebSocket을 통해 빠르게 반환됩니다.
이 방식을 활용하면 매번 커넥션을 재설정하지 않아도 되므로 성능 향상은 물론 TLS 핸드셰이크 및 연결 오버헤드가 줄어듭니다.
직접 컨테이너 구현 및 SageMaker AI 배포 가이드
기술적으로는 사용자 맞춤형 모델도 AWS에서 제공하는 양방향 스트리밍 기능을 활용할 수 있도록 컨테이너를 제작할 수 있습니다. Python과 Docker를 기반으로 다음과 같은 단계로 진행합니다.
- AWS ECR에 Docker 이미지 빌드 및 푸시
- SageMaker AI에 모델 배포 및 엔드포인트 생성
- 새로운 InvokeEndpointWithBidirectionalStream API를 사용하여 클라이언트에서 실시간 추론 수행
또한, 해당 컨테이너에는 다음 메타데이터를 Dockerfile에 명시해야 스트리밍 기능이 정상 지원됩니다.
com.amazonaws.sagemaker.capabilities.bidirectional-streaming=true
모델 추론 호출 시 Python SDK를 통한 활용법도 제공되는데, asyncio 모듈과 AWS SDK를 조합해 스트림 데이터를 전송 및 수신하며 대화형 처리를 구현할 수 있습니다.
클라우드 마켓플레이스 Deepgram 모델과 통합
Amazon SageMaker는 Deepgram의 음성 AI 모델과의 통합을 통해 실용적이고 신뢰성 높은 음성 인식 처리를 빠르게 구축할 수 있도록 지원합니다. Deepgram의 Nova-3 모델은 다국어 대응, 도메인 특화 인식, 고성능 실시간 전사 등 강력한 기능을 제공하며, SageMaker AI 콘솔에서 몇 번의 클릭만으로 배포 가능합니다.

설정 시 ml.g6.2xlarge 인스턴스를 권장하며, Deepgram의 문서에 따라 적정 하드웨어 선택이 가능합니다. SageMaker Marketplace를 통해 14일 무료 체험도 제공되므로, 초기 개발자를 위한 진입 장벽이 높지 않습니다.
활용 사례: 고객센터 음성 상담 자동화
양방향 스트리밍을 실제 응용한 가장 대표적인 활용 사례는 콜센터 음성 인식 자동화입니다. 상담자가 고객의 말을 듣는 동시에 실시간 텍스트 전사를 받아 즉각 반응할 수 있으며, 별도의 대기 시간 없이 연속된 멀티턴 대화가 가능합니다. 엔드포인트 하나로 수백 개의 단기 연결을 대체할 수 있어 클라우드 인프라의 효율성과 비용성도 크게 개선됩니다.
자동화/비교/도입 가이드 관점에서 본 유의점
- 도입 방법: 간단한 클릭 혹은 Docker 기반 CI/CD로 컨테이너 자동화 배포 가능
- 활용성: LLM 기반 챗봇, 음성 헬프데스크, 미디어 전사 도구 등에 적용 가능
- 비교 우위: 모델 전환이 없어도 지속 커넥션으로 실시간 응답 향상
- 자동화 구조 설계: WebSocket 기반 API와 병렬 데이터 처리로 엔드-투-엔드 자동화 데이터 플로우 구성 가능
결론
양방향 스트리밍은 단순한 기술 기능 이상으로, 자연스럽고 인간적인 대화형 AI 시스템 구축의 핵심 요소입니다. 특히 Amazon SageMaker AI의 인프라와 결합하면 고성능, 보안성, 확장성이 보장된 실시간 AI 환경을 비교적 간단하게 구현할 수 있습니다. 사내 모델이든 마켓플레이스 모델이든 자유롭게 선택하여 양방향 스트리밍 추론 기능을 지금 활용해보세요.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
