Optimizing ML Workload Network Efficiency: Feature Trimmer at Pinterest
Author: Pinterest Engineering | Source: Medium (Pinterest Engineering Blog) | Published: 2026-05-02
한 줄 요약
Pinterest는 ML 서빙의 네트워크 병목을 해결하기 위해 모델이 실제 사용하는 피처만 전송하는 Feature Trimmer를 도입하여 연간 400만 달러 이상을 절감했다.
핵심 주장/내용
- Root-Leaf ML 서빙 아키텍처에서 네트워크가 병목이 되어 GPU 활용률이 저하되는 문제를 발견
- “Send What You Use” 접근법으로 모델 시그니처(module_info.json)를 기준으로 필요한 피처만 전송
- Feature Trimmer는 모델 롤아웃과 동일한 단계적 배포(staged delivery)를 통해 배포되며, 버전별 룩업과 폴백을 지원
- 네트워크 트래픽 대폭 감소(Ads root 4GBPS→1.5GBPS 미만, leaf 1000-1200→200 MBPS 미만)로 클러스터 축소 가능
- SerDe 페이로드 축소로 레이턴시도 개선(p90 90ms 이상→80ms 미만)
주요 수치 / 사실
- Ads root 네트워크: 4 GBPS → <1.5 GBPS
- Ads leaf 네트워크: 1000-1200 MBPS → <200 MBPS
- Root 클러스터 27% 축소, Homefeed root 33% 축소
- 연간 총 절감액: >$4M
- 레이턴시 개선: p90 >90ms → <80ms
관련 위키
Source: 원문 보기