AI Self-Serve Analytics

비기술 사용자가 AI를 통해 직접 데이터를 질의하고 인사이트를 얻는 패턴


핵심 개념

AI 셀프서브 분석은 PM, 비즈니스 사용자 등 비기술 인력이 데이터 팀을 거치지 않고 자연어로 데이터를 직접 조회하는 패턴이다. 데이터 분석가의 병목을 해소하지만, 데이터 정합성과 환각(hallucination) 방지가 핵심 과제다.

프로덕션 사례

BlaBlaCar — PM 셀프서브

문제를 단계적으로 해결한 접근:

  1. 1단계: 범용 LLM 사용 → 오류율 32%로 높음
  2. 2단계: 구조화된 JSON 스키마 문서화 + 전문가 쿼리 히스토리 기반 few-shot 학습 → 오류율 15%로 감소
  3. 3구역 자율성 프레임워크:
    • Safe zone: 자유롭게 쿼리
    • Risky zone: 주의 필요, 검증 권장
    • Dead zone: 금지 (잘못된 결과가 위험한 영역)
  4. PM에게 SQL 리터러시 교육 병행
  5. 분석가의 역할이 반응적 티켓 처리 → 전략적 업무로 전환

Meta AI Analytics Agent

대규모 분석 쿼리 자동화:

  • 사용자별 과거 쿼리 로그로 개인화된 메모리 구축
  • 도메인 지식을 cookbook → recipe → ingredient 계층으로 구조화
  • 커뮤니티 기여 레시피가 도메인 커버리지를 확장
  • 6개월 내 77% 주간 채택률

에이전트 시대의 벽

a16z에 따르면 2024~25년 에이전트 광풍 이후 대부분의 데이터 에이전트 배포가 실패했다. MIT “State of AI in Business 2025” 보고서는 실패 원인을 “brittle workflows, lack of contextual learning, misalignment with day-to-day operations”로 진단한다.

핵심 병목은 모델의 SQL 생성 능력이 아니라 비즈니스 컨텍스트 부재:

  • “매출”의 정의가 코드에 하드코딩되어 있고, 시맨틱 레이어는 업데이트되지 않은 YAML 파일
  • 올바른 데이터 소스 식별 불가 — fct_revenue, mv_revenue_monthly, mv_customer_mrr 중 어떤 것이 정답?
  • 트라이벌 지식(“2025년 이후 USCAN 딜은 Affinity, 그 전 글로벌 리드는 Salesforce”)은 어디에도 기록되지 않음

해결 방향은 시맨틱 레이어를 넘어선 Context Layer 구축 → Semantic Layer 참조

성공 요인

  1. 구조화된 스키마 문서: 테이블 관계, 비즈니스 규칙을 JSON/YAML로 명시
  2. Few-shot 예시: 전문가의 실제 쿼리를 예시로 제공
  3. 자율성 경계 설정: 모든 질의를 허용하지 않고 위험도별 구역 분리
  4. 사용자 교육: AI 도구만으로 충분하지 않으며, 기본 SQL/데이터 리터러시 필요

Pinterest Analytics Agent — Unified Context-Intent Embeddings

SQL 쿼리를 시맨틱 임베딩으로 변환하여 기관 지식을 검색 가능한 라이브러리로 만드는 접근. DEW 270에서 상세 아키텍처가 공개됨:

3단계 임베딩 파이프라인:

  1. Domain Context Injection: 테이블 설명, 용어집, 메트릭 정의를 SQL과 함께 주입
  2. SQL-to-Text: LLM이 SQL을 비즈니스 의도(summary + analytical questions + 상세 분해)로 변환
  3. Text-to-Embedding: 의미 기반 벡터 표현으로 변환 → 키워드가 아닌 의도 기반 검색

거버넌스 인지 랭킹: 구조적 패턴(조인 키, 필터, 집계) + 통계적 시그널(성공률, 빈도, 작성자 전문성) + 거버넌스 메타데이터(티어, 신선도)를 융합하여 관련성뿐 아니라 신뢰성까지 보장

자기 강화 학습 사이클: 분석가가 쿼리를 작성할 때마다 자동으로 지식 베이스 확장 — “분석가가 이미 완벽한 프롬프트를 작성했다”

  • Asset-first 원칙: 새 SQL 생성 전에 기존 신뢰 에셋 발견
  • AI 문서화 + join-based lineage로 수동 문서 작업 ~70% 감소
  • 출시 2개월 만에 분석가 40% 커버, 사내 에이전트 1위 (2위 대비 10x)

Text-to-SQL 정확도의 진화

dbt Labs 2026 벤치마크에 따르면 Text-to-SQL 정확도가 2023년 32.7% → 2026년 64.5%로 거의 2배 향상됐다. 그러나 시맨틱 레이어는 여전히 98~100% 정확도로 압도적 우위 — 정확도가 중요한 보드 보고/KPI에는 Semantic Layer가 권장되며, 애드혹 탐색에는 Text-to-SQL도 충분.

SafetyCulture — 기본기가 AI BI를 만든다

SafetyCulture는 AI BI 도구(Hex) 도입에 앞서 데이터 플랫폼의 기본기를 바로잡았다:

  • 4원칙: Data Modelling, Quality First(90%+ 테스트), Documentation(테이블·컬럼 상세 설명), Data Ownership
  • Kimball 아키텍처(dimension, fact, SCD Type 2)로 mart 재설계 → 실행 14h→1.5h
  • dbt 문서 레이어를 Hex AI에 연결 → 별도 지시 없이 컨텍스트 파악·분석 제안
  • 한 달 내 직원 ~50% AI BI 채택, ad-hoc 요청 90% 감소
  • 핵심 인사이트: “좋은 AI BI는 좋은 데이터 플랫폼의 결과” — AI-Ready Data와 직결

Data Agent로의 진화

Microsoft 사례에서 AI 분석은 대시보드 → 자연어 Q&A → 능동적 Data Agent로 진화하고 있다:

  • Data Agent는 의도를 해석하고, 변화를 모니터링하며, 가드레일 내에서 행동을 취함
  • 5개 도메인별 자식 에이전트 + 부모 오케스트레이터 구조로 정확성과 유지보수성 확보
  • 주의: 데이터 기반(시맨틱 레이어, 메트릭 정의)이 미비하면 에이전트가 혼란을 증폭시킬 뿐

연관 개념


Source: Beyond the Dashboard - How BlaBlaCar PMs Use AI to Self-Serve Data, Inside Metas Home-Grown AI Analytics Agent, Your Data Agents Need Context, Pinterest - Unified Context-Intent Embeddings for Scalable Text-to-SQL, The Journey to Agentic BI, Data Agents When Enterprise Analytics Learns to Reason, Unified Context-Intent Embeddings for Scalable Text-to-SQL