스플래시뮤직, AWS 기반 생성형 AI로 누구나 음악을 만드는 시대를 열다

스플래시뮤직(Splash Music)은 생성형 인공지능의 진보를 활용하여 음악 산업의 새로운 지평을 열고 있습니다. 사용자 누구나 허밍만으로도 스튜디오 수준의 음악을 생성할 수 있도록 돕는 자체 모델 'HummingLM'과 이를 뒷받침하는 AWS Trainium 및 Amazon SageMaker HyperPod 인프라를 통해, 혁신적인 음악 자동화 서비스를 제공하고 있습니다. 이 글에서는 스플래시뮤직이 어떻게 AWS 플랫폼을 활용하여 대규모 음악 생성 모델을 성공적으로 확장하고 배포했는지를 상세하게 소개합니다.

생성형 음악 생성의 과제와 기술적 전환

HummingLM은 스플래시뮤직이 직접 개발한 수십억 개의 파라미터를 가진 멀티모달(fusion of melody and timbre) 생성 모델입니다. 이 모델은 음성 허밍을 실시간으로 악기 소리로 변환해 악보 없이도 고품질의 음악을 생성할 수 있도록 설계되었습니다. 그러나 이런 대규모 모델을 안정적으로 학습 및 배포하기 위해서는 막대한 컴퓨팅 리소스와 고도화된 인프라가 필수적이었고, 기존 GPU 클러스터는 속도와 확장성 면에서 많은 제약이 따랐습니다.

이에 따라 스플래시뮤직은 AWS Startups 및 Generative AI Innovation Center(GenAIIC)와 협력하여 AI 개발을 최적화할 수 있는 SageMaker HyperPod와 AWS Trainium 기반 완전 자동화된 훈련 환경을 구축했습니다. 이로 인해 더 짧은 시간 안에 더 큰 모델을 훈련하고, 빠르게 새로운 기능을 사용자에게 제공할 수 있게 되었습니다.

HummingLM 모델 학습 및 추론 프로세스 다이어그램

혁신적 데이터셋 처리와 학습 파이프라인

스플래시뮤직은 수백 테라바이트 규모에 달하는 음악 데이터를 효율적으로 처리하기 위해 병렬 처리 기반의 피처 추출 파이프라인을 개발했습니다. 여기에는 DAC(Descript Audio Codec)를 활용한 압축 오디오 표현 추출, MIDI 변환 및 허밍 비교를 위한 기준 단일 채널 파일 생성, 그리고 드럼, 베이스, 보컬 등 6가지 영역으로 스템 분리하는 자동화 시스템이 포함되어 있습니다.

이러한 데이터 전처리 전략은 모델 학습의 질을 극대화하고 다양한 스타일에 적응 가능한 일반화 성능을 확보하는 데 중요한 역할을 합니다.

모델 구조와 트레이닝 최적화

HummingLM은 두 개의 주요 구성 요소로 작동합니다. 첫 번째는 LLM 기반 트랜스포머가 멜로디 구조의 토큰을 생성하고, 두 번째는 업샘플링 모듈이 이를 고해상도 오디오로 확장하는 방식입니다. 특히, Non-Autoregressive 방식을 활용하여 병렬 토큰 예측을 가능케 함으로써 기존 방식 대비 추론 속도를 대폭 향상시켰고, 블록 단위 메모리 최적화(ZeRO-1), 혼합 정밀도 학습 등 다양한 배포 가이드가 자동화되어 모델 성능을 끌어올렸습니다.

AWS Trainium 기반 HummingLM 분산 학습 아키텍처

또한 AWS Neuron을 통해 모델을 Trainium 칩 상에서 최적화하여 실행할 수 있었습니다. 모델 파라미터는 최대 10억 개 이상으로 확장 가능하며, 시퀀스 병렬화, 텐서 병렬화 등 다양한 분산 학습 방식이 통합됨으로써 학습 속도는 50% 이상 향상되고, 비용은 54% 절감되었습니다. 이는 기존 GPU 기반의 클러스터를 대체할 만큼 효율적인 시스템 구축 사례로 평가받고 있습니다.

배포 및 실시간 추론 자동화

학습이 완료된 HummingLM 모델은 Amazon ECS 클러스터에 AWS Inferentia 칩 기반으로 배포되며, 오디오는 Amazon S3에 업로드되고 Amazon Lambda 함수에 의해 큐잉되어 자동 추론이 이뤄집니다. 이렇게 예측된 결과는 허밍 기반 멜로디 구조와 음성 스템을 재조합하여 완성도 높은 리믹싱 오디오로 생성되며, 사용자에게 실시간 제공됩니다. 전 과정이 자동화되어 있어 인프라 유지보수 없이 안정적인 서비스 연속성이 보장됩니다.

활용 사례 및 성과

스플래시뮤직은 현재까지 6억 스트림 이상의 성과를 내며, 글로벌 음악 생성 플랫폼으로 자리잡고 있습니다. 특히, 다음과 같은 주요 활용 성과를 기록했습니다.

모델 학습시간 50% 단축, 비용 54% 절감
배치 크기 70개 → 512개로 확장
새로운 기능 주 단위 배포 가능
제로샷 인스트루먼 포지셔닝 능력 확보
다양한 음악 장르와 스타일에서 견고한 성능 발휘

이처럼 스플래시뮤직은 AWS Trainium과 SageMaker HyperPod의 조합을 통해 연구자들이 반복 실험과 대용량 모델 설계를 더욱 빠르게 진행할 수 있는 환경을 구축하였으며, 이는 자동화 기반 생성형 AI 서비스 운영의 대표 사례로 꼽히고 있습니다.

결론 및 다음 단계

스플래시뮤직은 누구나 쉽게 음악을 만들 수 있도록 돕는 도구 혁신을 지속하고 있으며, AWS Startups 및 GenAIIC와의 협업을 통해 멀티모달 오디오/비디오 생성으로의 여정도 준비 중입니다.

초개인화된 콘텐츠 제작 시장의 성장을 고려할 때, 이처럼 AWS 플랫폼을 활용한 자동화된 생성형 AI 인프라 구축은 앞으로 다양한 산업에 적용될 수 있는 핵심 경쟁력이 될 것입니다.

https://aws.amazon.com/blogs/machine-learning/splash-music-transforms-music-generation-using-aws-trainium-and-amazon-sagemaker-hyperpod/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

스플래시뮤직, AWS 기반 생성형 AI로 누구나 음악을 만드는 시대를 열다

카테고리