Scaling LLM-Based Ranking Systems with SGLang at LinkedIn

Author: LinkedIn Engineering | Source: linkedin.com/blog/engineering | Published: 2026-02-01


한 줄 요약

LinkedIn이 SGLang의 prefill-only 랭킹 워크로드를 4단계에 걸쳐 최적화하여 처리량을 최대 3배 향상시키고, AI 검색 기능을 프로덕션 규모로 운영하는 과정을 설명한다.

핵심 주장/내용

  • 랭킹 워크로드는 생성(decode)이 아닌 prefill-only로, 긴 공유 프리픽스·높은 동시성·엄격한 레이턴시 SLA라는 고유 특성을 가짐
  • 4단계 최적화: 배치 토큰화(CPU 직렬화 해소) → 스코어링 전용 패스(13.7x P99 개선) → 인배치 프리픽스 캐싱(KV 재사용) → Python 런타임 최적화(GC freeze, GIL 분리, 멀티 스케줄러)
  • GPU가 빨라지자 Python 런타임(GC, GIL)이 병목이 되었으며, gc.freeze()로 100-300ms 지연 제거
  • 특수 워크로드에 맞춘 최적화가 SGLang 메인 엔진에서 분기(fork)없이 가능했음
  • 모든 개선 사항이 오픈소스 SGLang 프로젝트에 업스트림됨

주요 수치 / 사실

  • 텍스트 랭킹 (375M 모델): 750 → 2,200 items/s/GPU (~3x 향상)
  • 혼합 입력 랭킹 (0.6B 모델): 10k → 22k items/s/GPU (~2.2x 향상)
  • 타겟 H100 GPU, P99 latency ≤ 500ms
  • 배치 토큰화로 임베딩 P99 지연 ~10x 감소
  • 멀티 스케줄러 프로세스로 ~40% 추가 처리량 향상

관련 위키


Source: 원문 보기