Halodoc’s Layered Data Validation Strategy for Building Trust in the Lakehouse
Author: Isra Nurul Habibi | Source: Halodoc Engineering | Published: 2026-01-30
한 줄 요약
Halodoc이 RDS에서 서빙 시스템까지 4계층 데이터 검증 파이프라인을 구축하고, AI로 검증 쿼리를 자동 생성하여 커버리지를 확대했다.
핵심 주장/내용
- Layer 1 (Pulse Check): RDS ↔ Data Lake 시간 바운드 카운트 비교
- Layer 2 (구조적 검증): AI가 변환 SQL을 분석해 검증 쿼리 자동 생성 → 엔지니어 리뷰 후 실행
- Layer 3 (비즈니스 검증): 중복 비즈니스 키, null 제약, 도메인 값 규칙 검증
- Layer 4 (대사): 설정 기반 매핑으로 스키마 차이를 극복한 시스템 간 정합성 검증
- 설정 기반 컨트롤 테이블로 검증 규칙을 관리하여 파이프라인별 하드코딩 제거
주요 수치 / 사실
- 아키텍처: RDS → EMR(Spark+Hudi) → S3/Glue/Athena → Redshift → Internal RDS
- MWAA + Kubernetes로 검증 오케스트레이션
- AI 기반 검증 쿼리 자동 생성으로 커버리지 확대
관련 위키
Source: 원문 보기