Medallion Architecture
Bronze → Silver → Gold 3계층으로 데이터를 점진적으로 정제하는 데이터 레이크 패턴
핵심 개념
Medallion Architecture는 데이터를 원시(Bronze), 정제(Silver), 비즈니스 레디(Gold) 3단계로 나누어 처리하는 패턴이다. Databricks가 대중화했지만, 본질적으로 Kimball 시대의 스테이징-리포팅 모델의 현대적 재포장이다.
3계층
| 계층 | 역할 | 특성 |
|---|---|---|
| Bronze | 원시 데이터 보존 | 감사 추적, 스키마 변경 이력, append-only |
| Silver | 스키마 계약 적용 | 중복 제거, 타입 정규화, 비즈니스 규칙 검증 |
| Gold | 비즈니스 KPI 제공 | 집계, 조인, 소비자 친화적 모델 |
핵심 가치
단순한 폴더 분리가 아니라 경계(boundary)와 운영 규율이 핵심:
- 각 계층에 명확한 소유권과 품질 기준
- Bronze의 원시 데이터가 Silver의 변환 실패 시 재처리 가능성 보장
- Gold 계층이 AI 시스템에 신뢰할 수 있는 컨텍스트를 제공
AI 시대의 의미
AI 도구가 데이터 품질 문제를 대규모로 증폭시키는 환경에서, 계층 간 명확한 경계가 하류 오류의 전파를 차단한다. 나쁜 데이터의 비용은 추가 스토리지 비용을 훨씬 초과한다:
- IBM 2025년 조사: **조직의 25% 이상이 연간 25M 이상
- COO의 43%가 데이터 품질을 가장 중요한 데이터 우선순위로 식별
- 비즈니스 리더의 거의 절반이 데이터 정확성/편향 우려를 AI 확장의 주요 장벽으로 보고
인간 운영자를 위한 설계의 한계
메달리온 아키텍처의 Bronze→Silver→Gold 파이프라인은 본질적으로 인간이 각 단계에서 검수하는 것을 전제한 조립 라인이다. 물리적 창고의 통로·선반·안내 표지판처럼, 각 계층의 명명 규칙(fact_*, dim_*)과 정리 구조는 인간의 인지 제약에 맞춰 최적화되어 있다.
AI 에이전트가 소비자가 되면 이 구조의 의미가 달라진다:
- 에이전트는 스타 스키마의 시각적 직관이 아닌 검증된 시맨틱 정의가 필요
- 각 계층의 인간 검수 단계가 병목이 될 수 있음
- 구조는 탐색용(navigational)에서 **운영용(operational)**으로 전환 — 선반 라벨이 아닌 접근 경계 설계
Kimball의 차원 모델링 중 비즈니스 프로세스 식별과 그레인 선택(12단계)은 영속하지만, 스타 스키마라는 출력 형식(34단계)은 인간 소비자용 렌더링 선택이었다.
연관 개념
- Semantic Layer
- Change Data Capture
- Context Engineering
- Data Pipeline Fundamentals — 계층화 파이프라인의 운영 현실과 복잡성 관리
- Catalog-Managed Tables
- Data Quality and Validation
- DuckDB
Source: Medallion Architecture Isnt As New As You Think, ETL is Dead