Migrating Data Ingestion Systems at Meta Scale

Author: Meta Engineering | Source: engineering.fb.com | Published: 2026-05-13


한 줄 요약

Meta가 레거시 CDC 기반 데이터 인제스천 시스템을 새 아키텍처로 100% 마이그레이션하면서 사용한 Shadow/Reverse-Shadow 전략과 자동화 도구.

핵심 주장/내용

  • 수만 개의 인제스천 작업을 3단계 수명주기로 마이그레이션: Shadow → Reverse Shadow → Cleanup
  • Shadow Phase: 동일 소스를 소비하되 별도 테이블에 적재, row count + checksum으로 지속 비교
  • Reverse Shadow: 새 시스템이 프로덕션 테이블에 쓰고 구 시스템이 섀도 — 빠른 롤백 가능
  • CDC 특성상 잘못된 데이터가 전파되므로, 파티션 단위 bad-data 마킹 + 메타데이터 기반 빠른 차단
  • 배치별 마이그레이션에서 알려진 이슈가 있는 작업을 제외하여 불필요한 full dump 방지

주요 수치 / 사실

  • 세계 최대 MySQL 배포 중 하나에서 수 페타바이트를 매일 증분 인제스천
  • 데이터 품질 분석 도구가 Scuba에 미스매치 로그 → 매시간 자동 디버깅 정보 생성
  • 마이그레이션 전체를 자동 프로모션/디모션 시스템으로 운영

관련 위키


Source: 원문 보기