NVIDIA Parakeet ASR 모델을 Amazon SageMaker AI에 비동기 방식으로 배포하는 오디오 자동화 솔루션

기업의 오디오 데이터 활용을 위한 AI 자동화 – NVIDIA Parakeet ASR 모델을 Amazon SageMaker AI로 배포하기

음성 인식 기술은 고객 상담, 회의 녹취, 미디어 콘텐츠의 분석 및 자동화에 핵심적인 역할을 하며, 점점 더 많은 기업이 이 기술을 활용하고 있습니다. 하지만 대용량 오디오 데이터를 정확하고 비용 효율적으로 실시간 처리하는 것은 쉽지 않은 과제입니다. 이에 대한 해법으로 NVIDIA의 고성능 음성 AI 모델과 Amazon SageMaker AI의 비동기 추론(Asynchronous Inference)을 결합한 배포 솔루션이 떠오르고 있습니다.

여기서는 AWS 환경에서 NVIDIA의 Parakeet ASR 모델을 비동기 모드로 배포하여 오디오 인식 처리 자동화 파이프라인을 구성하는 방법을 소개합니다. 다양한 모델 배포 옵션, 아키텍처 구성 요소, 자동화 구현 예제, 그리고 실제 활용 사례까지 폭넓게 다룹니다.

Parakeet ASR과 NVIDIA Speech NIM 기술이란?

NVIDIA의 Parakeet ASR 모델은 최신 Fast Conformer 인코더와 CTC, Transducer 디코더로 구성되어 있으며, 기존 Conformer 대비 최대 2.4배 빠른 처리 속도를 유지하면서도 낮은 오류율(WER)을 자랑하는 고성능 음성 인식 모델입니다. 이 모델은 NVIDIA Speech NIM 프레임워크를 기반으로 Docker 기반의 GPU 최적화 마이크로서비스 형태로 제공되어 손쉽게 배포 및 활용이 가능합니다.

이와 함께 NVIDIA Riva는 Parakeet ASR과 결합하여 스피커 식별(Speaker Diarization), 타임스탬프, 신뢰도 스코어 등까지 지원하는 고급 음성 처리 기능을 제공합니다. 이를 통해 오디오 분석 자동화는 물론, 다양한 언어와 억양, 도메인 단어에 따라 모델을 커스터마이징할 수 있어 글로벌 서비스 제공에 매우 적합합니다.

SageMaker 비동기 추론 아키텍처 구성

다음은 대용량 ASR 작업을 위한 SageMaker 기반 비동기 추론 시스템 아키텍처입니다.

SageMaker 비동기 추론 오디오 처리 아키텍처 다이어그램

이 구조는 다음과 같은 구성 요소로 이루어집니다.

Amazon S3: 오디오 파일이 업로드돼 입력 지점이 됩니다.
AWS Lambda: 업로드 시 발생하는 이벤트를 처리하여 메타데이터를 분석하고 전체 Workflow를 시작합니다.
Amazon SageMaker AI: Parakeet ASR 모델을 비동기 엔드포인트로 배포하며, Auto Scaling to Zero 기능으로 유휴 시 비용 절감이 가능합니다.
Amazon SNS: 추론 성공/실패에 따라 별도의 알림 토픽을 구성하여 안정적인 상태 처리를 보장합니다.
Amazon Bedrock: 전사 완료된 텍스트에 대해 요약, 분류 등 추가 처리 진행.
Amazon DynamoDB: 전체 오디오 워크플로우의 상태 및 결과 메타데이터를 저장하여 실시간 모니터링 및 오류 추적 가능.

배포 방식별 모델 구현 단계

모델 배포는 목적과 환경에 따라 크게 세 가지 방식으로 나뉩니다:

NVIDIA NIM 컨테이너 활용:

NVIDIA 제공 컨테이너 기반 배포
HTTP/gRPC 통합 엔드포인트 구성
요청 크기나 기능에 따라 자동 라우팅 (예: HTTP는 5MB 이하, gRPC는 최대 25MB)
스피커 다이어리제이션 및 고급 타임스탬프 지원
JSON 구조 결과 반환, 멀티포맷 입력(Base64, Multipart 등) 지원

AWS LMI(Large Model Inference) 컨테이너 활용:

vLLM 또는 TensorRT-LLM 기반 대규모 모델 호스팅 최적화
다양한 프레임워크 및 포맷(ONNX, Hugging Face 등)과 호환
모델 병렬 구성, 양자화 설정 등을 환경 변수로 조정
대규모 음성 인식 워크로드에 적합

SageMaker PyTorch 컨테이너 활용:

사전 구성된 PyTorch DLC를 사용
개별 폴더 구성(model.tar.gz + inference.py) 후 S3 업로드
SageMaker Python SDK를 사용하여 엔드포인트 생성 및 실행
최대 1GB 오디오, 1시간 응답 시간 지원

자동화 배포 및 CDK 구성

AWS CDK(AWS Cloud Development Kit)를 통해 인프라 및 배포 작업을 코드로 자동화할 수 있습니다. 관련 리소스 구성 예시는 다음과 같습니다:

DynamoDB: 요청 상태 추적용 테이블 생성
S3 버킷: 오디오 파일, 전사 결과, 요약본 저장용 생성
SNS: 추론 성공/실패 이벤트 관리용 토픽 설정
IAM Role: Lambda 및 SageMaker 간 권한 설정

로컬 환경 세팅과 배포는 Node.js와 Python, Docker 설치 후, CDK 명령어를 사용하여 리소스 자동 생성을 완료합니다.

활용 사례

고객센터 분석: 수천 건의 고객 통화 전사와 요약을 통해 감정 분석 및 품질 개선
회의 자동화: 회의 녹음 파일 전사/요약 자동 처리로 검색 가능하고 요약된 기록 생성
콘텐츠 미디어: 팟캐스트, 뉴스 인터뷰 등 전사 및 태깅 자동화
법률/컴플라이언스: 증언 녹취록의 전사 및 요약 아카이빙

작업 완료 후 비용 방지를 위해 SageMaker 엔드포인트, SNS, Lambda, DynamoDB 등 리소스를 정리해야 합니다.

결론

Amazon SageMaker AI와 NVIDIA Parakeet ASR을 활용한 비동기 추론 기반 오디오 처리 솔루션은 고성능, 유연성, 자동화를 모두 갖춘 통합 플랫폼입니다. 특히 스케일 확장성과 비용 최적화 측면에서 우수하며, 복잡한 AI 인프라 운영 없이도 손쉽게 대규모 오디오 분석을 자동화할 수 있습니다. 실제 고객 워크로드에 맞게 모델을 커스터마이징하고, 정확한 전사와 요약 기능을 필요로 하는 다양한 산업군에 적합한 솔루션입니다.

https://aws.amazon.com/blogs/machine-learning/hosting-nvidia-speech-nim-models-on-amazon-sagemaker-ai-parakeet-asr/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

NVIDIA Parakeet ASR 모델을 Amazon SageMaker AI에 비동기 방식으로 배포하는 오디오 자동화 솔루션

카테고리