Scaling Recommendation Systems with Request-Level Deduplication
Author: Matt Lawhon, Filip Ryzner, Kousik Rajesh, Chen Yang, Saurabh Vishwas Joshi | Source: Pinterest Engineering | Published: 2026-04-14
한 줄 요약
Pinterest는 request-level deduplication으로 스토리지 10-50x 압축, 학습 4x 속도 향상, 서빙 7x 처리량 증가를 달성하여 100x 규모 Foundation Model을 기존 인프라 예산 내에서 배포했다.
핵심 주장/내용
- 문제: 추천 퍼널에서 동일 사용자 시퀀스(
16K 토큰)가 수백수천 아이템마다 중복 저장·처리 - 스토리지: Apache Iceberg + request-sorted data → 컬럼 압축이 자동 중복 제거 (10-50x)
- 학습 정확성 문제: Request-sorted → IID 가정 위반 → BatchNorm 문제(SyncBatchNorm으로 해결), false negative ~30%(user-level masking으로 해결)
- DCAT(Deduplicated Cross-Attention Transformer): context(사용자 시퀀스 1회 처리, KV 캐시) + crossing(아이템별 cross-attention) 분리 → custom Triton 커널로 구현
- 서빙: DCAT로 7x throughput 증가 → 100x 큰 모델을 기존 인프라로 배포 가능
주요 수치 / 사실
- 스토리지: 10-50x 압축
- 학습: retrieval 4x, ranking ~2.8x 속도 향상
- 서빙: 7x throughput 증가
- Foundation Model: 100x transformer dense 파라미터, 10x model dimension 증가
- False negative rate: IID ~0% → request-sorted ~30%
관련 위키
Source: 원문 보기