The Data Canary: How Netflix Validates Catalog Metadata
Author: Celina Amados | Source: Netflix Tech Blog | Published: 2026-02-06
한 줄 요약
Netflix는 프로덕션 트래픽을 활용한 Data Canary 시스템으로 카탈로그 메타데이터 변경을 10분 이내에 검증하여, 데이터 배포를 코드 배포와 동일한 수준으로 관리한다.
핵심 주장/내용
- 코드 변경 없이 데이터 피드 손상만으로 스트리밍 장애가 발생한 사건이 Data Canary 개발의 계기가 되었다
- 전용 Orchestrator 패턴으로 Baseline/Canary 클러스터를 분리하고, Chaos 플랫폼을 확장하여 데이터 검증에 활용한다
- Starts Per Second(SPS)를 주요 행동 메트릭으로 사용하여 레이턴시/에러율보다 고객 영향을 직접 측정한다
- Sticky Canary(세션 어피니티)로 실험 트래픽을 격리하고, 회귀 감지 즉시 실험을 중단한다
- 데이터 배포도 코드 배포와 동일한 엄격한 검증이 필요하다는 원칙을 확립했다
주요 수치 / 사실
- 이슈 탐지 시간: 2.5~4분 (클라이언트 유형별)
- Canary-Baseline 간 에러 차이: 10배
- 전체 글로벌 트래픽의 약 0.2%를 검증 플로우에 사용
- 기존 카나리 분석 도구는 통계적 신뢰도 확보에 30~60분 소요
관련 위키
Source: 원문 보기