The ML Feature Pipeline That Got Slower and No One Noticed

Author: Whatnot Engineering | Source: Medium (Whatnot Engineering) | Published: 2026-05-08

한 줄 요약

Whatnot의 라이브스트림 랭킹용 ML 피처 파이프라인이 점진적으로 느려졌지만 TTL 버퍼와 거짓 알람으로 인해 아무도 인지하지 못한 장애 사례와 교훈.

잘못된 PR이 결과 0건을 유발했지만, Redis의 2일 TTL이 graceful degradation을 제공해 즉시 장애로 드러나지 않음
거짓 알람이 실제 이슈를 가렸으므로, 고신뢰(결과 0건 → 즉시 페이징)와 저신뢰(분포 변화 → 업무시간 리뷰)로 알림을 분리
파이프라인이 조용히 1시간에서 2시간 주기로 전환되었지만 알림 없음 — 실패의 부재는 약한 신호
점진적 런타임 증가(모델 2→5분, 인제스션 5→10분)가 버퍼를 잠식
GMV 영향 기반 3단계 인시던트 분류 체계 도입: Tier 0(누락/손상, -2% GMV), Tier 1(24h+ 지연, -1%), Tier 2(24h 미만 지연)