Backfills: The Necessary Evil of Data Engineering

Author: SeattleDataGuy (Ben Rogojan) | Source: seattledataguy.substack.com | Published: 2026-02-24


한 줄 요약

백필은 불가피하므로 파이프라인을 처음부터 재실행 가능하게 설계하고, 테이블 유형에 따라 전략을 달리해야 한다.

핵심 주장/내용

  • 백필 원인: 잘못된 소스 데이터, 파이프라인 버그, 스키마/로직 변경
  • DE가 백필을 싫어하는 이유: 규모(수천 태스크), 비용(재실행 비용), 시간 소모, blast radius(수백 명의 소비자 영향), 신뢰 훼손
  • 전통 테이블 백필: 파트너 ID + 날짜 파라미터로 재실행 가능한 파이프라인 설계
  • 파티션 기반 테이블 백필: 180개 파티션의 불일치 위험 — blue-green 스타일 테이블 스왑이 더 안전
  • 스키마 변경 백필: ORC/Avro/Parquet의 데이터 타입 변환·컬럼 삭제 제한 때문에 테이블 재생성 필요
  • 백필 빈도를 줄이는 방법: 유용한 DQ 체크, 파라미터화된 파이프라인, 프로덕션 일회성 수정 금지, 스토리지 포맷 제한 이해

관련 위키


Source: 원문 보기