The ML Feature Pipeline That Got Slower and No One Noticed

Author: Whatnot Engineering | Source: Medium (Whatnot Engineering) | Published: 2026-05-08


한 줄 요약

Whatnot의 라이브스트림 랭킹용 ML 피처 파이프라인이 점진적으로 느려졌지만 TTL 버퍼와 거짓 알람으로 인해 아무도 인지하지 못한 장애 사례와 교훈.

핵심 주장/내용

  • 잘못된 PR이 결과 0건을 유발했지만, Redis의 2일 TTL이 graceful degradation을 제공해 즉시 장애로 드러나지 않음
  • 거짓 알람이 실제 이슈를 가렸으므로, 고신뢰(결과 0건 → 즉시 페이징)와 저신뢰(분포 변화 → 업무시간 리뷰)로 알림을 분리
  • 파이프라인이 조용히 1시간에서 2시간 주기로 전환되었지만 알림 없음 — 실패의 부재는 약한 신호
  • 점진적 런타임 증가(모델 2→5분, 인제스션 5→10분)가 버퍼를 잠식
  • GMV 영향 기반 3단계 인시던트 분류 체계 도입: Tier 0(누락/손상, -2% GMV), Tier 1(24h+ 지연, -1%), Tier 2(24h 미만 지연)

주요 수치 / 사실

  • SLO: 99.9% 성공률, E2E 60분 이내
  • Tier 0 장애 시 GMV -2% 영향
  • 모델 런타임: 2분 → 5분으로 점진적 증가
  • 인제스션 시간: 5분 → 10분으로 점진적 증가
  • Redis TTL: 2일

관련 위키


Source: 원문 보기