멀티모달 비디오 검색 시스템 구축 방법

멀티모달 비디오 검색 시스템 구축: 대규모 AI 데이터 레이크 활용

비디오 데이터를 효율적으로 처리하고 검색하는 시스템이 필요할 때, 아마존 웹 서비스(AWS)의 다양한 도구를 활용하여 구축할 수 있습니다. 이번 블로그 포스트에서는 아마존 Nova 모델과 아마존 OpenSearch Service를 사용하여 자연어를 통해 비디오 콘텐츠를 효과적으로 검색하는 방법을 알아봅니다.

멀티모달 임베딩의 활용

멀티모달 비디오 검색 시스템을 구축하기 위해서는 먼저 비디오 데이터를 텍스트와 비디오 간의 연관성을 찾을 수 있도록 임베딩하는 과정이 필요합니다. 이 과정에서는 Amazon Nova를 통해 자연어 검색을 위한 의미적 검색을 구현합니다. 아마존 OpenSearch Service를 사용하여 대규모 비디오 데이터를 효율적으로 검색할 수 있는 기반을 마련할 수 있습니다.

대규모 데이터 처리: 사례 탐구

이번 솔루션에서는 AWS Open Data Registry의 두 데이터세트를 사용하여 79만 2,270개의 비디오를 처리했습니다. 이를 통해 48.5M 초의 비디오 콘텐츠를 41시간 만에 처리 완료했습니다. 처리 비용은 OpenSearch on-demand 이용 시 $27,328에 달했습니다.

비디오 인제션 파이프라인

비디오 데이터를 효율적으로 인덱싱하기 위해서는 다음과 같은 절차가 필수적입니다:

Amazon S3에 비디오 업로드
Nova Multimodal Embeddings 통해 비디오 세그먼트 생성을 위한 비동기 API 사용
Nova Pro 또는 Nova Lite를 통한 설명적 태그 생성
OpenSearch k-NN 인덱스와 텍스트 인덱스에 유사도 임베딩 및 메타데이터 태그 인덱싱

비디오 인제션 파이프라인의 흐름도

비디오 검색 아키텍처

검색 기능은 텍스트-비디오, 비디오-비디오, 하이브리드 검색 모드를 포함하여 구현됩니다. 이때 하이브리드 검색은 벡터 유사도(70% 가중치)와 키워드 매칭(30% 가중치)을 결합하여 최적의 정확도를 제공합니다.

비디오 검색 아키텍처 구조도

결론

이번 솔루션에서는 Amazon Nova와 OpenSearch Service를 활용하여 대규모 비디오 데이터셋에 대한 효율적인 검색 시스템을 구축하는 방법을 제시하였습니다. 이러한 접근법은 다양한 검색 모드를 통해 사용자의 요청에 맞는 비디오를 빠르게 찾을 수 있도록 합니다.

[1] https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기