Enhancing Flink Deployment with Shadow Testing

Author: Grab Engineering (Coban team) | Source: Grab Engineering Blog | Published: 2026-05-07


한 줄 요약

Grab은 Flink 신규 버전을 프로덕션과 병렬로 실행하는 Shadow Testing을 배포 파이프라인에 통합하여, 프로덕션 영향 없이 검증하고 실패 시 약 10분의 다운타임을 제거했다.

핵심 주장/내용

  • Shadow 앱은 별도의 Consumer Group ID, 시프트된 Debezium Server ID, 별도 Kafka 클러스터/S3 버킷을 사용하여 프로덕션에 영향을 주지 않는다
  • 배포 파이프라인에 통합: Shadow 배포 → 1시간 관찰 → 사용자 승인 → Main 배포 → 비정상 시 10분 내 자동 롤백
  • isShadow 환경 변수를 통해 커넥터 설정을 동적으로 분기하여 Shadow/Main 모드를 제어한다
  • 메트릭에 접두사를 붙여 Shadow와 Main 앱의 모니터링을 분리한다

주요 수치 / 사실

  • Shadow 관찰 시간: 1시간
  • 자동 롤백 기준 시간: 10분
  • 기존 실패 배포 시 다운타임: 약 10분 → Shadow Testing으로 제거

관련 위키


Source: 원문 보기