Medallion Architecture

Bronze → Silver → Gold 3계층으로 데이터를 점진적으로 정제하는 데이터 레이크 패턴


핵심 개념

Medallion Architecture는 데이터를 원시(Bronze), 정제(Silver), 비즈니스 레디(Gold) 3단계로 나누어 처리하는 패턴이다. Databricks가 대중화했지만, 본질적으로 Kimball 시대의 스테이징-리포팅 모델의 현대적 재포장이다.

3계층

계층역할특성
Bronze원시 데이터 보존감사 추적, 스키마 변경 이력, append-only
Silver스키마 계약 적용중복 제거, 타입 정규화, 비즈니스 규칙 검증
Gold비즈니스 KPI 제공집계, 조인, 소비자 친화적 모델

핵심 가치

단순한 폴더 분리가 아니라 경계(boundary)와 운영 규율이 핵심:

  • 각 계층에 명확한 소유권과 품질 기준
  • Bronze의 원시 데이터가 Silver의 변환 실패 시 재처리 가능성 보장
  • Gold 계층이 AI 시스템에 신뢰할 수 있는 컨텍스트를 제공

AI 시대의 의미

AI 도구가 데이터 품질 문제를 대규모로 증폭시키는 환경에서, 계층 간 명확한 경계가 하류 오류의 전파를 차단한다. 나쁜 데이터의 비용은 추가 스토리지 비용을 훨씬 초과한다:

  • IBM 2025년 조사: **조직의 25% 이상이 연간 25M 이상
  • COO의 43%가 데이터 품질을 가장 중요한 데이터 우선순위로 식별
  • 비즈니스 리더의 거의 절반이 데이터 정확성/편향 우려를 AI 확장의 주요 장벽으로 보고

인간 운영자를 위한 설계의 한계

메달리온 아키텍처의 Bronze→Silver→Gold 파이프라인은 본질적으로 인간이 각 단계에서 검수하는 것을 전제한 조립 라인이다. 물리적 창고의 통로·선반·안내 표지판처럼, 각 계층의 명명 규칙(fact_*, dim_*)과 정리 구조는 인간의 인지 제약에 맞춰 최적화되어 있다.

AI 에이전트가 소비자가 되면 이 구조의 의미가 달라진다:

  • 에이전트는 스타 스키마의 시각적 직관이 아닌 검증된 시맨틱 정의가 필요
  • 각 계층의 인간 검수 단계가 병목이 될 수 있음
  • 구조는 탐색용(navigational)에서 **운영용(operational)**으로 전환 — 선반 라벨이 아닌 접근 경계 설계

Kimball의 차원 모델링 중 비즈니스 프로세스 식별과 그레인 선택(12단계)은 영속하지만, 스타 스키마라는 출력 형식(34단계)은 인간 소비자용 렌더링 선택이었다.

연관 개념


Source: Medallion Architecture Isnt As New As You Think, ETL is Dead