Synchronizing the Senses: Powering Multimodal Intelligence for Video Search

Author: Netflix Engineering | Source: https://netflixtechblog.com/powering-multimodal-intelligence-for-video-search-3e0020cf1202 | Published: 2026-03-30

한 줄 요약

Netflix는 대규모 프로덕션 영상의 멀티모달 검색을 위해, 다수 ML 모델의 출력을 Cassandra/Kafka/Elasticsearch로 초 단위 시간 버킷팅하여 캐릭터/씬/대사 신호를 통합하는 실시간 검색 시스템을 구축했다.

핵심 주장/내용

대규모 영상 프로덕션에서 여러 ML 모델(캐릭터 인식, 씬 분류, 대사 분석 등)의 출력을 통합하여 편집자가 실시간으로 쿼리할 수 있는 저지연 검색 시스템이 필요하다
Cassandra를 고처리량 수집용으로, Kafka를 1초 단위 시간 버킷팅용으로, Elasticsearch를 계층적 인덱싱(캐릭터+씬+대사 신호 결합)용으로 파이프라인을 구성했다
HNSW 기반 시맨틱 벡터 검색과 match-phrase 대사 쿼리를 지원하며, union-intersection 로직으로 수십억 개 데이터 포인트에서 씬 경계를 재구성한다

주요 수치 / 사실

(원본 접근 불가로 DEW 소개문 기반 — 구체적 수치 없음)
시간 버킷팅: 1초 단위 간격
데이터 규모: 수십억(billions) 데이터 포인트

Data Eng Wiki

탐색기

Synchronizing the Senses - Powering Multimodal Intelligence for Video Search

Synchronizing the Senses: Powering Multimodal Intelligence for Video Search

한 줄 요약

핵심 주장/내용

주요 수치 / 사실

관련 위키

그래프 뷰

목차

백링크