Data Mesh and Federation
모놀리식 데이터 웨어하우스를 도메인별로 분리하여 소유권, 거버넌스, 장애 격리를 달성하는 아키텍처 패턴
핵심 개념
Data Mesh는 중앙 집중형 데이터 웨어하우스의 한계(연쇄 장애, 노이지 네이버, 병목)를 도메인별 분산 소유권으로 해결하는 아키텍처 패러다임이다. Database Federation은 이를 구현하는 구체적 기술 전략으로, 데이터를 물리적으로 복사하지 않고 메타데이터 포인터만 조작하여 분리한다.
Uber — Hive Database Federation
모놀리식 Hive DWH(16,000+ 데이터셋, 10PB)를 도메인별 연합 데이터베이스로 분리한 대표 사례:
문제
- 연쇄 장애: 하나의 과부하 쿼리가 전체 웨어하우스에 영향
- 노이지 네이버: 도메인 간 리소스 경쟁
- 과도한 권한: 중앙 관리로 최소 권한 원칙 위반
- 중앙 팀 병목: 모든 변경이 데이터 플랫폼 팀을 통과
해결: 포인터 조작 마이그레이션
- Hive Metastore 포인터만 변경하여 데이터 복사 없이 무중단 마이그레이션
- 도메인 팀에 DB 운영 권한 위임 → 인시던트 대응 속도 향상
- ACL 기반 최소 권한 접근 제어 달성
- 스토리지 중복 및 파이프라인 동기화 복잡성 제거
중앙화 vs 연합의 트레이드오프
| 측면 | 중앙 집중형 | 연합형 (Federation) |
|---|---|---|
| 장애 격리 | 약함 — 연쇄 장애 위험 | 강함 — 도메인별 독립 |
| 거버넌스 | 일관성 높음 | 도메인별 정책, 일관성 관리 필요 |
| 마이그레이션 | 복잡한 데이터 이동 | 포인터 조작으로 무중단 |
| 소유권 | 중앙 팀 병목 | 도메인 팀 자율 운영 |
| 쿼리 최적화 | 단일 엔진 최적화 | 크로스-도메인 조인 복잡 |
LLM 기반 거버넌스와의 결합
연합 환경에서 도메인별 스키마가 독립적으로 진화하면 PII 탐지가 어려워진다:
- Databricks LogSentinel: LLM이 컬럼명, 샘플 데이터, 메타데이터를 종합 분석하여 PII 자동 판정
- 스키마 변경 시 자동 재라벨링으로 연합 환경의 거버넌스 일관성 유지
Monzo — dbt 기반 분산 데이터 소유권
12,000+ dbt 모델, 100+ 팀의 분산 소유권을 표준 아키텍처로 관리하는 실무 사례:
- 4계층: Landing(자동) → Normalised(자동, SCD2) → Logical(비즈니스 로직) → Presentation(소비자용)
- Interfaces: normalised/logical 레이어에서만 선언 가능한 크로스팀 데이터 공유 계약 — 암묵적 의존성을 명시적 거버넌스로 전환
- Modelgen: YAML 설정에서 SQL/YAML 자동 생성, CI에서 Data Standards 자동 검증
- 마이그레이션된 도메인에서 비용 ~40% 절감, 데이터 도착 시간 ~25% 단축
- 핵심 교훈: 중앙 소유로 회귀하지 않고 “효율적인 모델링이 기본값이 되는” 구조와 도구를 제공
Grab Signals Marketplace — 인증 기반 데이터 메시 도구
Grab의 데이터 메시(Signals Marketplace) Part II — 인증(certification)을 실질적으로 구동하는 3대 플랫폼:
Hubble (데이터 카탈로그)
- DataHub 기반 중앙 메타데이터 관리 플랫폼
- 검색·발견, 소유권·도메인, 리니지·영향 분석, 인증 상태를 단일 카탈로그에 통합
- 이벤트 기반 인증 엔진: 메타데이터 변경 이벤트 → DataHub Actions로 인증 상태 자동 재계산
- 4단계 인증: Uncertified → Certified → CertifiedPlus(업스트림 포함) → Revoked
Genchi (데이터 품질 관찰성)
- 셀프서비스 데이터 품질 테스트 플랫폼
- 신선도, 완전성/볼륨, 스키마 안정성, 시맨틱 유효성 검증
- 데이터 계약에 직접 통합되어 인증의 런타임 품질 기준 충족
Data Contract Registry
- 데이터 계약의 중앙 관리 서비스
- 스키마, 품질, SLA 기대치를 명시하여 생산자-소비자 간 합의 구조화
Airbnb — Viaduct: 데이터 지향 서비스 메시
GraphQL 기반 데이터 지향 서비스 메시로 중앙 스키마의 분산 개발을 구현:
- 핵심 패턴: 모듈 기반 멀티테넌시 — 공유 런타임이 독립 개발된 tenant 모듈을 호스팅
- Federation이 서버를 분산한다면, Viaduct는 모듈을 분산 → 팀은 도메인 로직에만 집중
- Federation과 보완적 관계: Viaduct 인스턴스가 federation subgraph로 참여 가능
- 1.0 릴리스(2026)로 안정된 공개 API, Maven Central 배포, 커뮤니티 주도 개발로 전환
- 데이터 메시의 “single interface for any data source” 비전을 API 레이어에서 구현
연관 개념
- Data Governance — 거버넌스 프레임워크 내 연합 위치
- Distributed Systems Reliability — 장애 격리와 신뢰성
- Catalog-Managed Tables — 카탈로그 기반 중앙 발견 + 분산 소유
- Data Contracts — 인터페이스와 데이터 계약의 관계
- Data Pipeline Fundamentals
- Data Quality and Validation — Genchi의 품질 관찰성과 연계
Source: Database Federation - Decentralized and ACL-Compliant Hive Databases, LogSentinel LLM-Powered PII Detection and Governance, A Meshy Approach to Data at Monzo, Data Mesh at Grab Part II, Viaduct 1.0 and Airbnb Data Mesh