MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix

Author: Netflix Tech Blog | Source: Netflix Tech Blog | Published: 2026-03-01


한 줄 요약

Netflix의 MediaFM은 비디오 프레임·오디오·자막을 통합한 트라이-모달 트랜스포머로 샷 레벨 임베딩을 생성하여 광고 배치, 클립 랭킹, 태깅, 콜드스타트 추천 등 여러 다운스트림 태스크를 단일 기반 모델로 지원한다.

핵심 주장/내용

  • 트라이-모달(비디오 프레임 + 오디오 + 자막) 트랜스포머 아키텍처
  • Masked Shot Modeling(MSM) 방식으로 자기지도(self-supervised) 사전학습
  • 글로벌 토큰이 타이틀 레벨 컨텍스트를 주입하여 각 샷 임베딩을 시리즈/영화 전체 맥락에 기반
  • 단일 기반 모델이 광고 배치, 클립 랭킹, 콘텐츠 태깅, 콜드스타트 추천에 공통 사용
  • “콘텐츠를 규모에서 이해하려면 내러티브 구조를 포착하는 기계 가독 표현이 필요”

주요 수치 / 사실

  • Netflix 전체 카탈로그에 걸쳐 적용
  • 원본 아티클 SSL 인증서 오류로 구체적 수치 미확인

관련 위키


Source: 원문 보기