Synchronizing the Senses: Powering Multimodal Intelligence for Video Search
Author: Netflix Engineering | Source: https://netflixtechblog.com/powering-multimodal-intelligence-for-video-search-3e0020cf1202 | Published: 2026-03-30
한 줄 요약
Netflix는 대규모 프로덕션 영상의 멀티모달 검색을 위해, 다수 ML 모델의 출력을 Cassandra/Kafka/Elasticsearch로 초 단위 시간 버킷팅하여 캐릭터/씬/대사 신호를 통합하는 실시간 검색 시스템을 구축했다.
핵심 주장/내용
- 대규모 영상 프로덕션에서 여러 ML 모델(캐릭터 인식, 씬 분류, 대사 분석 등)의 출력을 통합하여 편집자가 실시간으로 쿼리할 수 있는 저지연 검색 시스템이 필요하다
- Cassandra를 고처리량 수집용으로, Kafka를 1초 단위 시간 버킷팅용으로, Elasticsearch를 계층적 인덱싱(캐릭터+씬+대사 신호 결합)용으로 파이프라인을 구성했다
- HNSW 기반 시맨틱 벡터 검색과 match-phrase 대사 쿼리를 지원하며, union-intersection 로직으로 수십억 개 데이터 포인트에서 씬 경계를 재구성한다
주요 수치 / 사실
- (원본 접근 불가로 DEW 소개문 기반 — 구체적 수치 없음)
- 시간 버킷팅: 1초 단위 간격
- 데이터 규모: 수십억(billions) 데이터 포인트
관련 위키
Source: 원문 보기