The 5 Silent Failures in Data Pipelines

Schema Drift: 헤더리스 SFTP 파일에서 컬럼 순서 변경 시 데이터 타입은 맞지만 의미가 달라짐 — 필드 집합·길이·타입 검증 필요
Partial Data Loads: API 레이트 리밋으로 정확히 10,000행이나 65,536(2^16)행에서 묵묵히 중단 — 완벽한 라운드 넘버 의심
Stale Data: 외부 파트너 자동화 실패로 신규 데이터 없이 파이프라인 성공 — freshness 체크와 대시보드 경고 필요
Late-Arriving Dimensions: Enum 기반 범주형 데이터에 새 값 추가 시 JOIN 실패 → NULL 전파, ML 모델이 NULL로 학습
Outdated Logic: 하드코딩된 임계값(고객 티어, 환율, 날짜 범위)이 비즈니스 변화 시 기술적으로 정확하지만 의미적으로 틀림

데이터 파이프라인이 에러 없이 실행되면서도 잘못된 데이터를 생산하는 5가지 조용한 실패 패턴과 대응법.