Scaling LLM Post-Training at Netflix

Author: Baolin Li, Lingyi Liu, Binh Tang, Shaojing Li (Netflix Tech Blog) | Source: Netflix Tech Blog | Published: 2026-02-13

한 줄 요약

Netflix는 SFT와 RL 워크플로우를 통합 지원하는 포스트 트레이닝 프레임워크를 구축하여, on-the-fly 시퀀스 패킹으로 4.7배 처리량 향상을 달성했다.

Data, Model, Compute, Workflow 4가지 핵심 추상화로 포스트 트레이닝 전체 라이프사이클을 체계화했다
하이브리드 Single-Controller + SPMD 아키텍처로 SFT의 단순한 데이터 병렬 학습과 RL의 복잡한 멀티모델 오케스트레이션을 단일 프레임워크에서 처리한다
HuggingFace 생태계 기반으로 설계하여 온보딩 시간을 대폭 단축하고 오픈소스 개선사항을 즉시 활용한다
On-the-fly 시퀀스 패킹(First-Fit-Decreasing 빈 패킹)으로 92-97% 패킹 효율을 달성하여 나이브 패딩 대비 4.7배 토큰 처리량 향상
모델 개발자가 40-60%의 시간을 데이터 준비에 소비하는 문제를 표준화된 데이터 추상화로 해결했다