Next Generation DB Ingestion at Pinterest

Author: Liang Mou, Yisheng Zhou, Elizabeth (Vi) Nguyen, Owen Zhang | Source: Pinterest Engineering Blog | Published: 2026-02-05


한 줄 요약

Pinterest는 레거시 배치 기반 인제스천을 Debezium/TiCDC + Kafka + Flink + Spark + Iceberg 기반의 통합 CDC 프레임워크로 교체하여 데이터 레이턴시를 24시간에서 15분으로 단축했다.

핵심 주장/내용

  • 레거시 시스템의 문제: 24시간 이상의 데이터 레이턴시, 비효율적 풀테이블 배치(일일 변경 5% 미만), row-level 삭제 미지원
  • CDC 레이어가 1초 이내 레이턴시로 DB 변경을 Kafka에 기록하고, Flink가 CDC Iceberg 테이블에 적재
  • Spark가 15분 주기로 Merge Into(MOR 전략)를 사용해 Base Iceberg 테이블을 업서트
  • Bucket Join 최적화로 대규모 테이블 컴퓨트 비용 40% 이상 절감
  • MySQL, TiDB, KVStore 등 주요 DB를 단일 프레임워크로 지원하며 Config-Driven 온보딩 제공

주요 수치 / 사실

  • CDC 테이블 레이턴시: 5분 이내
  • Base 테이블 레이턴시: 15분~1시간
  • 일일 변경 비율: 전체 테이블의 5% 미만
  • Bucket Join으로 컴퓨트 비용 40%+ 절감
  • Merge-on-Read(MOR) 전략 표준화 (COW 대비 스토리지 비용 절감)

관련 위키


Source: 원문 보기