Next Generation DB Ingestion at Pinterest
Author: Liang Mou, Yisheng Zhou, Elizabeth (Vi) Nguyen, Owen Zhang | Source: Pinterest Engineering Blog | Published: 2026-02-05
한 줄 요약
Pinterest는 레거시 배치 기반 인제스천을 Debezium/TiCDC + Kafka + Flink + Spark + Iceberg 기반의 통합 CDC 프레임워크로 교체하여 데이터 레이턴시를 24시간에서 15분으로 단축했다.
핵심 주장/내용
- 레거시 시스템의 문제: 24시간 이상의 데이터 레이턴시, 비효율적 풀테이블 배치(일일 변경 5% 미만), row-level 삭제 미지원
- CDC 레이어가 1초 이내 레이턴시로 DB 변경을 Kafka에 기록하고, Flink가 CDC Iceberg 테이블에 적재
- Spark가 15분 주기로 Merge Into(MOR 전략)를 사용해 Base Iceberg 테이블을 업서트
- Bucket Join 최적화로 대규모 테이블 컴퓨트 비용 40% 이상 절감
- MySQL, TiDB, KVStore 등 주요 DB를 단일 프레임워크로 지원하며 Config-Driven 온보딩 제공
주요 수치 / 사실
- CDC 테이블 레이턴시: 5분 이내
- Base 테이블 레이턴시: 15분~1시간
- 일일 변경 비율: 전체 테이블의 5% 미만
- Bucket Join으로 컴퓨트 비용 40%+ 절감
- Merge-on-Read(MOR) 전략 표준화 (COW 대비 스토리지 비용 절감)
관련 위키
Source: 원문 보기