TwelveLabs Marengo와 Amazon Bedrock을 활용한 멀티모달 영상 분석 가이드

인공지능 기반 멀티모달 영상 분석, TwelveLabs Marengo와 Amazon Bedrock 통합 활용 가이드

미디어, 교육, 광고, 기업 교육 등 다양한 산업에서 활용되는 영상 콘텐츠는 시각, 청각, 자막 등 다양한 요소가 복합적으로 작용하는 복잡한 데이터입니다. 이로 인해 기존 인공지능 시스템이 영상 내부 의미를 정확히 파악하거나 검색, 분류, 추론하는 데 한계가 있어 왔습니다. 하지만 Amazon Bedrock에서 새롭게 지원하는 TwelveLabs의 Marengo 3.0 모델은 이러한 복잡한 문제를 멀티 벡터 기반의 멀티모달 임베딩 방식으로 해결합니다.

Marengo 모델은 텍스트 및 이미지 임베딩을 실시간으로 처리하며, 비디오 콘텐츠에 대해 시각, 오디오, 자막 등 다양한 모달리티별 임베딩을 분리 생성합니다. 이 기술은 기존 메타데이터 기반 분석이나 단일 벡터 모델의 한계를 극복하고 정밀한 의미 기반 검색 및 자동화된 인사이트 도출을 가능하게 합니다.

비디오 임베딩의 의미 유사도 시각화 히트맵 이미지

Marengo의 핵심 기술은 비디오의 다양한 정보(시각 객체, 동작, 배경음, 자막 등)를 단일 벡터에 억지로 통합하지 않고, 각각에 대해 개별 벡터를 생성하는 방식입니다. 예를 들어 한 비디오의 특정 구간에 대해 '시각 임베딩', '오디오 임베딩', '전사 텍스트 임베딩'을 각각 부여함으로써 특정 시간 구간의 정밀 검색이 가능합니다.

Amazon Bedrock에서 Marengo API를 호출하는 방식은 비동기이며, S3 버킷에 저장된 비디오 파일을 활용합니다. 코드를 통해 사용자는 자동으로 장면 구간을 나누거나, 고정된 길이 또는 최소 지속시간을 기준으로 분석 지점을 설정할 수 있습니다. 매 API 호출로부터 생성된 280개 이상의 세그먼트는 Amazon OpenSearch Serverless를 통해 백터 인덱싱되어 다양한 검색 시나리오에 활용됩니다.

Marengo API를 통한 비디오 임베딩 생성 개요 다이어그램

특히 OpenSearch Serverless는 비디오, 이미지, 텍스트, 오디오 임베딩 데이터를 벡터 필드로 구성하여 효과적인 코사인 유사도 기반 검색을 지원하며, 서버 관리를 따로 하지 않아 빠르게 구축할 수 있는 장점이 있습니다.

크로스모달 의미 검색 기능도 매우 강력합니다. 예를 들어 사용자가 '담배 피우는 사람'이라는 텍스트 쿼리를 입력하면, 이와 관련된 영상 클립, 유사한 장면, 유사한 오디오 클립 등을 통합적으로 검색해납니다.

‘담배 피우는 사람’을 텍스트 쿼리로 검색한 결과 영상 예시

또한 이미지를 입력으로 활용하여 유사한 장면의 영상 검색도 가능합니다. 아래 이미지를 활용해 검색을 실행하면 유사 장면의 영상 결과를 반환합니다.

전화 통화 중인 사람 이미지 검색 예시

검색 결과 해당 영상 클립 예시 화면 이미지

Marengo의 멀티벡터 구조와 Amazon Bedrock의 실시간 AI 처리 기능을 결합하면 다음과 같은 자동화 및 고도 사용 사례에 활용할 수 있습니다:

영상 유사 장면 검색 자동화 시스템
제품 검색 시 유사 광고 영상 추천 시스템
기업 교육 영상 내 특정 발언, 장면, 키워드 기반 분석
광고 및 콘텐츠 재사용 시 유사 장면 매칭을 통한 활용도 극대화

결론

지능형 비디오 콘텐츠 분석 솔루션의 필요성이 커지는 가운데, TwelveLabs Marengo 모델과 Amazon Bedrock의 통합은 그간 어려웠던 다차원 영상 이해와 자동화를 실현합니다. 단일 API 호출을 통해 비디오 하나를 수백 개의 검색 가능한 세그먼트로 변환하여, 텍스트, 이미지, 오디오 기반 의미 검색이 가능해진 이 구조는 다양한 산업에서 핵심 콘텐츠 유통 및 분석 솔루션의 토대가 될 수 있습니다.

영상 중심의 디지털 세상이 더욱 확대되는 지금, Marengo 기반 기술은 차세대 AI 활용의 효율적 실행 방안을 제시합니다. 실제 샘플 코드와 배포 가이드는 아래 깃허브 링크를 통해 확인해 보세요.

https://aws.amazon.com/blogs/machine-learning/unlocking-video-understanding-with-twelvelabs-marengo-on-amazon-bedrock/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

TwelveLabs Marengo와 Amazon Bedrock을 활용한 멀티모달 영상 분석 가이드

카테고리