Scaling LLM Post-Training at Netflix

Author: Baolin Li, Lingyi Liu, Binh Tang, Shaojing Li (Netflix Tech Blog) | Source: Netflix Tech Blog | Published: 2026-02-13


한 줄 요약

Netflix는 SFT와 RL 워크플로우를 통합 지원하는 포스트 트레이닝 프레임워크를 구축하여, on-the-fly 시퀀스 패킹으로 4.7배 처리량 향상을 달성했다.

핵심 주장/내용

  • Data, Model, Compute, Workflow 4가지 핵심 추상화로 포스트 트레이닝 전체 라이프사이클을 체계화했다
  • 하이브리드 Single-Controller + SPMD 아키텍처로 SFT의 단순한 데이터 병렬 학습과 RL의 복잡한 멀티모델 오케스트레이션을 단일 프레임워크에서 처리한다
  • HuggingFace 생태계 기반으로 설계하여 온보딩 시간을 대폭 단축하고 오픈소스 개선사항을 즉시 활용한다
  • On-the-fly 시퀀스 패킹(First-Fit-Decreasing 빈 패킹)으로 92-97% 패킹 효율을 달성하여 나이브 패딩 대비 4.7배 토큰 처리량 향상
  • 모델 개발자가 40-60%의 시간을 데이터 준비에 소비하는 문제를 표준화된 데이터 추상화로 해결했다

주요 수치 / 사실

  • 4.7배 토큰 처리량 향상 (on-the-fly 시퀀스 패킹)
  • 92-97% 패킹 효율 (나이브 패딩 50-70% 대비)
  • 7B~70B+ 파라미터 모델 지원
  • 모델 개발자 40-60%의 시간을 데이터 준비에 소비
  • Vocabulary 패딩으로 텐서 병렬 처리 시 5-10% 처리량 추가 향상

관련 위키


Source: 원문 보기