Optimizing ML Workload Network Efficiency: Feature Trimmer at Pinterest

Author: Pinterest Engineering | Source: Medium (Pinterest Engineering Blog) | Published: 2026-05-02

한 줄 요약

Pinterest는 ML 서빙의 네트워크 병목을 해결하기 위해 모델이 실제 사용하는 피처만 전송하는 Feature Trimmer를 도입하여 연간 400만 달러 이상을 절감했다.

Root-Leaf ML 서빙 아키텍처에서 네트워크가 병목이 되어 GPU 활용률이 저하되는 문제를 발견
“Send What You Use” 접근법으로 모델 시그니처(module_info.json)를 기준으로 필요한 피처만 전송
Feature Trimmer는 모델 롤아웃과 동일한 단계적 배포(staged delivery)를 통해 배포되며, 버전별 룩업과 폴백을 지원
네트워크 트래픽 대폭 감소(Ads root 4GBPS→1.5GBPS 미만, leaf 1000-1200→200 MBPS 미만)로 클러스터 축소 가능
SerDe 페이로드 축소로 레이턴시도 개선(p90 90ms 이상→80ms 미만)