Optimizing ML Workload Network Efficiency: Feature Trimmer at Pinterest

Author: Pinterest Engineering | Source: Medium (Pinterest Engineering Blog) | Published: 2026-05-02


한 줄 요약

Pinterest는 ML 서빙의 네트워크 병목을 해결하기 위해 모델이 실제 사용하는 피처만 전송하는 Feature Trimmer를 도입하여 연간 400만 달러 이상을 절감했다.

핵심 주장/내용

  • Root-Leaf ML 서빙 아키텍처에서 네트워크가 병목이 되어 GPU 활용률이 저하되는 문제를 발견
  • “Send What You Use” 접근법으로 모델 시그니처(module_info.json)를 기준으로 필요한 피처만 전송
  • Feature Trimmer는 모델 롤아웃과 동일한 단계적 배포(staged delivery)를 통해 배포되며, 버전별 룩업과 폴백을 지원
  • 네트워크 트래픽 대폭 감소(Ads root 4GBPS→1.5GBPS 미만, leaf 1000-1200→200 MBPS 미만)로 클러스터 축소 가능
  • SerDe 페이로드 축소로 레이턴시도 개선(p90 90ms 이상→80ms 미만)

주요 수치 / 사실

  • Ads root 네트워크: 4 GBPS → <1.5 GBPS
  • Ads leaf 네트워크: 1000-1200 MBPS → <200 MBPS
  • Root 클러스터 27% 축소, Homefeed root 33% 축소
  • 연간 총 절감액: >$4M
  • 레이턴시 개선: p90 >90ms → <80ms

관련 위키


Source: 원문 보기