Halodoc’s Layered Data Validation Strategy for Building Trust in the Lakehouse

Author: Isra Nurul Habibi | Source: Halodoc Engineering | Published: 2026-01-30


한 줄 요약

Halodoc이 RDS에서 서빙 시스템까지 4계층 데이터 검증 파이프라인을 구축하고, AI로 검증 쿼리를 자동 생성하여 커버리지를 확대했다.

핵심 주장/내용

  • Layer 1 (Pulse Check): RDS ↔ Data Lake 시간 바운드 카운트 비교
  • Layer 2 (구조적 검증): AI가 변환 SQL을 분석해 검증 쿼리 자동 생성 → 엔지니어 리뷰 후 실행
  • Layer 3 (비즈니스 검증): 중복 비즈니스 키, null 제약, 도메인 값 규칙 검증
  • Layer 4 (대사): 설정 기반 매핑으로 스키마 차이를 극복한 시스템 간 정합성 검증
  • 설정 기반 컨트롤 테이블로 검증 규칙을 관리하여 파이프라인별 하드코딩 제거

주요 수치 / 사실

  • 아키텍처: RDS → EMR(Spark+Hudi) → S3/Glue/Athena → Redshift → Internal RDS
  • MWAA + Kubernetes로 검증 오케스트레이션
  • AI 기반 검증 쿼리 자동 생성으로 커버리지 확대

관련 위키


Source: 원문 보기