Data Eng Wiki

❯

❯

data_engineering_weekly

❯

❯

Scaling LLM Based Ranking Systems with SGLang at LinkedIn

Scaling LLM-Based Ranking Systems with SGLang at LinkedIn

2026년 4월 16일2 min read

Scaling LLM-Based Ranking Systems with SGLang at LinkedIn

Author: LinkedIn Engineering | Source: linkedin.com/blog/engineering | Published: 2026-02-01

한 줄 요약

LinkedIn이 SGLang의 prefill-only 랭킹 워크로드를 4단계에 걸쳐 최적화하여 처리량을 최대 3배 향상시키고, AI 검색 기능을 프로덕션 규모로 운영하는 과정을 설명한다.

핵심 주장/내용

랭킹 워크로드는 생성(decode)이 아닌 prefill-only로, 긴 공유 프리픽스·높은 동시성·엄격한 레이턴시 SLA라는 고유 특성을 가짐
4단계 최적화: 배치 토큰화(CPU 직렬화 해소) → 스코어링 전용 패스(13.7x P99 개선) → 인배치 프리픽스 캐싱(KV 재사용) → Python 런타임 최적화(GC freeze, GIL 분리, 멀티 스케줄러)
GPU가 빨라지자 Python 런타임(GC, GIL)이 병목이 되었으며, gc.freeze()로 100-300ms 지연 제거
특수 워크로드에 맞춘 최적화가 SGLang 메인 엔진에서 분기(fork)없이 가능했음
모든 개선 사항이 오픈소스 SGLang 프로젝트에 업스트림됨

주요 수치 / 사실

텍스트 랭킹 (375M 모델): 750 → 2,200 items/s/GPU (~3x 향상)
혼합 입력 랭킹 (0.6B 모델): 10k → 22k items/s/GPU (~2.2x 향상)
타겟 H100 GPU, P99 latency ≤ 500ms
배치 토큰화로 임베딩 P99 지연 ~10x 감소
멀티 스케줄러 프로세스로 ~40% 추가 처리량 향상

관련 위키

LLM Fine-Tuning
ML Ranking Systems

Source: 원문 보기

그래프 뷰

Scaling LLM-Based Ranking Systems with SGLang at LinkedIn
한 줄 요약
핵심 주장/내용
주요 수치 / 사실
관련 위키

Created with Quartz v4.5.2 © 2026

junghyun-kim