AWS Batch와 Parakeet-TDT를 활용한 다국어 음성 리소스 구축 방법

AWS Batch와 Parakeet-TDT를 활용한 효율적인 다국어 음성 리소스 구축하기

현대의 많은 기업들은 방대한 미디어 라이브러리를 구축하고, 고객 센터 녹취를 분석하며, AI 학습 데이터를 준비하고, 자막을 위한 온디맨드 비디오를 처리하고 있습니다. 그러나 데이터의 양이 크게 증가할수록 자동 음성 인식(ASR) 서비스 비용이 확장성의 주요 제약 조건이 될 수 있습니다.

이 문제를 해결하기 위해 NVIDIA의 Parakeet-TDT-0.6B-v3 모델을 AWS Batch를 통해 GPU 가속 인스턴스에서 배포하고 있습니다. Parakeet-TDT는 토큰 및 지속 시간 예측 아키텍처를 사용하여 음소거 및 중복 처리를 건너뛰며 실시간보다 수십 배 더 빠른 추론 속도를 달성할 수 있습니다. 이러한 방식으로 전체 오디오 길이에 대한 비용이 아닌 짧은 컴퓨팅 시간에 대한 비용만 지불하여 대규모 오디오 기록을 합리적인 비용으로 처리할 수 있습니다.

솔루션 아키텍처

오디오 파일을 S3 버킷에 업로드하면 Amazon EventBridge 규칙이 AWS Batch에 작업을 제출합니다. AWS Batch는 GPU 가속 컴퓨팅 리소스를 프로비저닝하며, 프로비저닝된 인스턴스는 Amazon Elastic Container Registry(Amazon ECR)에서 사전 캐싱된 모델을 로드합니다. 그 후, 추론 스크립트가 파일을 다운로드하고 처리한 후 타임스탬프가 포함된 JSON 형식의 성적서를 출력 S3 버킷에 업로드합니다. 이 아키텍처는 유휴 시 비용이 들지 않으며, 활성 컴퓨팅 중에만 비용이 발생합니다.

이벤트 기반 오디오 전사 파이프라인 아키텍처

AWS Batch와 EC2 Spot 인스턴스를 활용한 비용 효율성 증대

AWS Batch는 G6.xlarge, G5 등 다양한 인스턴스를 활용하여 비용과 성능을 최적화하며, Amazon EC2 Spot 인스턴스를 사용하면 최대 90%의 할인된 가격으로 사용하지 않는 EC2 용량을 사용할 수 있어 추가적인 비용 절감 효과를 얻을 수 있습니다. 이를 통해 오디오 파일의 길이에 관계없이 안정적이고 효율적인 대규모 오디오 처리가 가능합니다.

결론적으로, AWS Batch와 Parakeet-TDT 모델을 결합하면 여러 유럽 언어의 다국어 AI 오디오 처리를 위한 경제적인 솔루션을 제공함으로써 기존의 관리형 API 서비스에 비해 비용과 시간 측면에서 상당한 이점을 얻을 수 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/cost-effective-multilingual-audio-transcription-at-scale-with-parakeet-tdt-and-aws-batch/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

AWS Batch와 Parakeet-TDT를 활용한 다국어 음성 리소스 구축 방법

AWS Batch와 Parakeet-TDT를 활용한 효율적인 다국어 음성 리소스 구축하기

솔루션 아키텍처

AWS Batch와 EC2 Spot 인스턴스를 활용한 비용 효율성 증대

카테고리