Scaling Recommendation Systems with Request-Level Deduplication

Author: Matt Lawhon, Filip Ryzner, Kousik Rajesh, Chen Yang, Saurabh Vishwas Joshi | Source: Pinterest Engineering | Published: 2026-04-14


한 줄 요약

Pinterest는 request-level deduplication으로 스토리지 10-50x 압축, 학습 4x 속도 향상, 서빙 7x 처리량 증가를 달성하여 100x 규모 Foundation Model을 기존 인프라 예산 내에서 배포했다.

핵심 주장/내용

  • 문제: 추천 퍼널에서 동일 사용자 시퀀스(16K 토큰)가 수백수천 아이템마다 중복 저장·처리
  • 스토리지: Apache Iceberg + request-sorted data → 컬럼 압축이 자동 중복 제거 (10-50x)
  • 학습 정확성 문제: Request-sorted → IID 가정 위반 → BatchNorm 문제(SyncBatchNorm으로 해결), false negative ~30%(user-level masking으로 해결)
  • DCAT(Deduplicated Cross-Attention Transformer): context(사용자 시퀀스 1회 처리, KV 캐시) + crossing(아이템별 cross-attention) 분리 → custom Triton 커널로 구현
  • 서빙: DCAT로 7x throughput 증가 → 100x 큰 모델을 기존 인프라로 배포 가능

주요 수치 / 사실

  • 스토리지: 10-50x 압축
  • 학습: retrieval 4x, ranking ~2.8x 속도 향상
  • 서빙: 7x throughput 증가
  • Foundation Model: 100x transformer dense 파라미터, 10x model dimension 증가
  • False negative rate: IID ~0% → request-sorted ~30%

관련 위키


Source: 원문 보기