Full Refresh vs Incremental Pipelines

Author: SeattleDataGuy (Ben Rogojan) | Source: seattledataguy.substack.com | Published: 2026-03-18


한 줄 요약

풀 리프레시와 증분 로드는 비용, 구현 난이도, 백필, 업데이트/삭제 처리에서 근본적으로 다른 트레이드오프를 가진다.

핵심 주장/내용

  • 풀 리프레시: CREATE OR REPLACE로 단순 구현, 소규모 데이터셋에 적합, WAP(Write-Audit-Publish) 패턴과 결합하면 안전성 향상
  • 증분 로드: 변경분만 처리하여 비용 절감(1TB 중 5GB만), 그러나 데이터 이해와 변경 추적 메커니즘 필요
  • 파이프라인 설계 선택이 영향을 미치는 5가지: 컴퓨트 비용, 구현 용이성, 백필 전략, 업데이트/삭제 처리, 플랫폼 제약
  • Redshift 초기에는 MERGE 미지원으로 파이프라인 설계가 제한됨 — 플랫폼이 패턴을 결정하기도 함
  • dbt 모델에서 incremental materialization 사용 시 데이터의 update_at 필드 유무 확인 필수

주요 수치 / 사실

  • 풀 리프레시: 1TB 테이블을 매일 재구축하면 웨어하우스 비용 급증
  • 증분 로드: 같은 테이블에서 새로 도착한 5GB만 처리

관련 위키


Source: 원문 보기