Data Eng Wiki

❯

❯

data_engineering_weekly

❯

❯

Netflix MediaFM The Multimodal AI Foundation for Media Understanding

Netflix - MediaFM The Multimodal AI Foundation for Media Understanding

2026년 4월 16일2 min read

MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix

Author: Netflix Tech Blog | Source: Netflix Tech Blog | Published: 2026-03-01

한 줄 요약

Netflix의 MediaFM은 비디오 프레임·오디오·자막을 통합한 트라이-모달 트랜스포머로 샷 레벨 임베딩을 생성하여 광고 배치, 클립 랭킹, 태깅, 콜드스타트 추천 등 여러 다운스트림 태스크를 단일 기반 모델로 지원한다.

핵심 주장/내용

트라이-모달(비디오 프레임 + 오디오 + 자막) 트랜스포머 아키텍처
Masked Shot Modeling(MSM) 방식으로 자기지도(self-supervised) 사전학습
글로벌 토큰이 타이틀 레벨 컨텍스트를 주입하여 각 샷 임베딩을 시리즈/영화 전체 맥락에 기반
단일 기반 모델이 광고 배치, 클립 랭킹, 콘텐츠 태깅, 콜드스타트 추천에 공통 사용
“콘텐츠를 규모에서 이해하려면 내러티브 구조를 포착하는 기계 가독 표현이 필요”

주요 수치 / 사실

Netflix 전체 카탈로그에 걸쳐 적용
원본 아티클 SSL 인증서 오류로 구체적 수치 미확인

관련 위키

Multimodal Search

Source: 원문 보기

그래프 뷰

MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix
한 줄 요약
핵심 주장/내용
주요 수치 / 사실
관련 위키

백링크

Multimodal Search

Created with Quartz v4.5.2 © 2026

junghyun-kim