Backfills: The Necessary Evil of Data Engineering
Author: SeattleDataGuy (Ben Rogojan) | Source: seattledataguy.substack.com | Published: 2026-02-24
한 줄 요약
백필은 불가피하므로 파이프라인을 처음부터 재실행 가능하게 설계하고, 테이블 유형에 따라 전략을 달리해야 한다.
핵심 주장/내용
- 백필 원인: 잘못된 소스 데이터, 파이프라인 버그, 스키마/로직 변경
- DE가 백필을 싫어하는 이유: 규모(수천 태스크), 비용(재실행 비용), 시간 소모, blast radius(수백 명의 소비자 영향), 신뢰 훼손
- 전통 테이블 백필: 파트너 ID + 날짜 파라미터로 재실행 가능한 파이프라인 설계
- 파티션 기반 테이블 백필: 180개 파티션의 불일치 위험 — blue-green 스타일 테이블 스왑이 더 안전
- 스키마 변경 백필: ORC/Avro/Parquet의 데이터 타입 변환·컬럼 삭제 제한 때문에 테이블 재생성 필요
- 백필 빈도를 줄이는 방법: 유용한 DQ 체크, 파라미터화된 파이프라인, 프로덕션 일회성 수정 금지, 스토리지 포맷 제한 이해
관련 위키
Source: 원문 보기