Scaling LLM Post-Training at Netflix
Author: Baolin Li, Lingyi Liu, Binh Tang, Shaojing Li (Netflix Tech Blog) | Source: Netflix Tech Blog | Published: 2026-02-13
한 줄 요약
Netflix는 SFT와 RL 워크플로우를 통합 지원하는 포스트 트레이닝 프레임워크를 구축하여, on-the-fly 시퀀스 패킹으로 4.7배 처리량 향상을 달성했다.
핵심 주장/내용
- Data, Model, Compute, Workflow 4가지 핵심 추상화로 포스트 트레이닝 전체 라이프사이클을 체계화했다
- 하이브리드 Single-Controller + SPMD 아키텍처로 SFT의 단순한 데이터 병렬 학습과 RL의 복잡한 멀티모델 오케스트레이션을 단일 프레임워크에서 처리한다
- HuggingFace 생태계 기반으로 설계하여 온보딩 시간을 대폭 단축하고 오픈소스 개선사항을 즉시 활용한다
- On-the-fly 시퀀스 패킹(First-Fit-Decreasing 빈 패킹)으로 92-97% 패킹 효율을 달성하여 나이브 패딩 대비 4.7배 토큰 처리량 향상
- 모델 개발자가 40-60%의 시간을 데이터 준비에 소비하는 문제를 표준화된 데이터 추상화로 해결했다
주요 수치 / 사실
- 4.7배 토큰 처리량 향상 (on-the-fly 시퀀스 패킹)
- 92-97% 패킹 효율 (나이브 패딩 50-70% 대비)
- 7B~70B+ 파라미터 모델 지원
- 모델 개발자 40-60%의 시간을 데이터 준비에 소비
- Vocabulary 패딩으로 텐서 병렬 처리 시 5-10% 처리량 추가 향상
관련 위키
Source: 원문 보기