Multimodal Search

텍스트, 이미지, 오디오, 비디오 등 여러 모달리티를 통합하여 검색하는 시스템


핵심 개념

멀티모달 검색은 단일 모달리티(텍스트)를 넘어 이미지, 비디오, 오디오 등 다양한 데이터 유형을 결합하여 검색하는 시스템이다. 각 모달리티별 ML 모델 출력을 통합하고, 시간 동기화와 계층적 인덱싱이 핵심 과제다.

Netflix — 비디오 검색

대규모 프로덕션에서 영상 편집자가 실시간으로 장면을 검색하는 시스템:

파이프라인

  • Cassandra: 멀티모달 어노테이션 고처리량 수집
  • Kafka: 1초 단위 시간 버킷팅으로 모달리티 간 시간 정렬
  • Elasticsearch: 캐릭터, 장면, 대사 신호를 결합한 계층적 인덱싱

검색 방식

  • 시맨틱 벡터 검색: HNSW 알고리즘으로 의미 기반 유사도 검색
  • 대사 검색: match-phrase 쿼리로 정확한 대사 검색
  • 장면 경계 재구성: union-intersection 로직으로 수십억 데이터 포인트에서 장면 경계를 복원

Netflix MediaFM — 콘텐츠 이해 기반 모델

비디오 검색을 넘어 콘텐츠 전반의 의미를 이해하는 기반 모델:

  • 트라이-모달 트랜스포머: 비디오 프레임 + 오디오 + 자막을 통합한 샷 레벨 임베딩 생성
  • Masked Shot Modeling(MSM): 자기지도 사전학습으로 레이블 없이 콘텐츠 의미 학습
  • 글로벌 토큰: 타이틀 레벨 컨텍스트를 각 샷 임베딩에 주입하여 시리즈/영화 전체 맥락 반영
  • 단일 기반 모델의 다운스트림 활용: 광고 배치, 클립 랭킹, 콘텐츠 태깅, 콜드스타트 추천
  • “콘텐츠를 규모에서 이해하려면 내러티브 구조를 포착하는 기계 가독 표현이 필요”

시맨틱 검색 — 텍스트 모달리티 특화

Zepto의 프로덕션 시맨틱 검색 시스템:

  • 듀얼 인코더: 쿼리와 상품 임베딩을 독립 생성하여 의도 인식 검색
  • 약한 지도학습 + 합성 데이터: 레이블링 비용 없이 학습 데이터 확보
  • InfoNCE 손실 함수: 의도 인식 임베딩 학습
  • 키워드 검색 실패 쿼리에서 35% 성능 향상

아키텍처 패턴 비교

접근강점약점
키워드 (BM25)빠르고 결정적의미 불일치, 오타에 취약
시맨틱 벡터 (HNSW)의미 유사도 포착인덱싱 비용, 정확 매칭 약함
하이브리드 (BM25 + Dense)양쪽 장점 결합스코어 융합 전략 필요
트라이모달 (MediaFM)텍스트+오디오+비디오 통합학습·서빙 비용 높음

연관 개념


Source: Synchronizing the Senses - Powering Multimodal Intelligence for Video Search, Netflix - MediaFM The Multimodal AI Foundation for Media Understanding, How We Built High-Precision, Low-Latency Semantic Search in Production