Data Eng Wiki

❯

❯

data_engineering_weekly

❯

❯

Scaling Recommendation Systems with Request Level Deduplication

Scaling Recommendation Systems with Request-Level Deduplication

2026년 4월 20일2 min read

Scaling Recommendation Systems with Request-Level Deduplication

Author: Matt Lawhon, Filip Ryzner, Kousik Rajesh, Chen Yang, Saurabh Vishwas Joshi | Source: Pinterest Engineering | Published: 2026-04-14

한 줄 요약

Pinterest는 request-level deduplication으로 스토리지 10-50x 압축, 학습 4x 속도 향상, 서빙 7x 처리량 증가를 달성하여 100x 규모 Foundation Model을 기존 인프라 예산 내에서 배포했다.

핵심 주장/내용

문제: 추천 퍼널에서 동일 사용자 시퀀스(~~16K 토큰)가 수백~~수천 아이템마다 중복 저장·처리
스토리지: Apache Iceberg + request-sorted data → 컬럼 압축이 자동 중복 제거 (10-50x)
학습 정확성 문제: Request-sorted → IID 가정 위반 → BatchNorm 문제(SyncBatchNorm으로 해결), false negative ~30%(user-level masking으로 해결)
DCAT(Deduplicated Cross-Attention Transformer): context(사용자 시퀀스 1회 처리, KV 캐시) + crossing(아이템별 cross-attention) 분리 → custom Triton 커널로 구현
서빙: DCAT로 7x throughput 증가 → 100x 큰 모델을 기존 인프라로 배포 가능

주요 수치 / 사실

스토리지: 10-50x 압축
학습: retrieval 4x, ranking ~2.8x 속도 향상
서빙: 7x throughput 증가
Foundation Model: 100x transformer dense 파라미터, 10x model dimension 증가
False negative rate: IID ~0% → request-sorted ~30%

관련 위키

ML Ranking Systems
Generative Recommender Systems
Data Engineering FinOps

Source: 원문 보기

그래프 뷰

Scaling Recommendation Systems with Request-Level Deduplication
한 줄 요약
핵심 주장/내용
주요 수치 / 사실
관련 위키

Created with Quartz v4.5.2 © 2026

junghyun-kim