AI Self-Serve Analytics

비기술 사용자가 AI를 통해 직접 데이터를 질의하고 인사이트를 얻는 패턴


핵심 개념

AI 셀프서브 분석은 PM, 비즈니스 사용자 등 비기술 인력이 데이터 팀을 거치지 않고 자연어로 데이터를 직접 조회하는 패턴이다. 데이터 분석가의 병목을 해소하지만, 데이터 정합성과 환각(hallucination) 방지가 핵심 과제다.

프로덕션 사례

BlaBlaCar — PM 셀프서브

문제를 단계적으로 해결한 접근:

  1. 1단계: 범용 LLM 사용 → 오류율 32%로 높음
  2. 2단계: 구조화된 JSON 스키마 문서화 + 전문가 쿼리 히스토리 기반 few-shot 학습 → 오류율 15%로 감소
  3. 3구역 자율성 프레임워크:
    • Safe zone: 자유롭게 쿼리
    • Risky zone: 주의 필요, 검증 권장
    • Dead zone: 금지 (잘못된 결과가 위험한 영역)
  4. PM에게 SQL 리터러시 교육 병행
  5. 분석가의 역할이 반응적 티켓 처리 → 전략적 업무로 전환

Meta AI Analytics Agent

대규모 분석 쿼리 자동화:

  • 사용자별 과거 쿼리 로그로 개인화된 메모리 구축
  • 도메인 지식을 cookbook → recipe → ingredient 계층으로 구조화
  • 커뮤니티 기여 레시피가 도메인 커버리지를 확장
  • 6개월 내 77% 주간 채택률

에이전트 시대의 벽

a16z에 따르면 2024~25년 에이전트 광풍 이후 대부분의 데이터 에이전트 배포가 실패했다. MIT “State of AI in Business 2025” 보고서는 실패 원인을 “brittle workflows, lack of contextual learning, misalignment with day-to-day operations”로 진단한다.

핵심 병목은 모델의 SQL 생성 능력이 아니라 비즈니스 컨텍스트 부재:

  • “매출”의 정의가 코드에 하드코딩되어 있고, 시맨틱 레이어는 업데이트되지 않은 YAML 파일
  • 올바른 데이터 소스 식별 불가 — fct_revenue, mv_revenue_monthly, mv_customer_mrr 중 어떤 것이 정답?
  • 트라이벌 지식(“2025년 이후 USCAN 딜은 Affinity, 그 전 글로벌 리드는 Salesforce”)은 어디에도 기록되지 않음

해결 방향은 시맨틱 레이어를 넘어선 Context Layer 구축 → Semantic Layer 참조

성공 요인

  1. 구조화된 스키마 문서: 테이블 관계, 비즈니스 규칙을 JSON/YAML로 명시
  2. Few-shot 예시: 전문가의 실제 쿼리를 예시로 제공
  3. 자율성 경계 설정: 모든 질의를 허용하지 않고 위험도별 구역 분리
  4. 사용자 교육: AI 도구만으로 충분하지 않으며, 기본 SQL/데이터 리터러시 필요

Pinterest Analytics Agent — Embedding 기반 자산 발견

SQL 쿼리를 시맨틱 임베딩으로 변환하여 기관 지식을 검색 가능하게 만드는 접근:

  • 과거 SQL 쿼리를 시맨틱 시그니처로 임베딩 → 수년간의 SQL 지식을 검색 가능한 라이브러리로 전환
  • 비즈니스 용어집을 시스템에 주입하여 도메인 언어와 SQL 사이의 의미적 연결 강화
  • asset-first 패턴: 쿼리 의도보다 데이터 에셋을 먼저 발견하여 올바른 테이블을 추천
  • 2개월 만에 내부 채택률 40% 달성

Text-to-SQL 정확도의 진화

dbt Labs 2026 벤치마크에 따르면 Text-to-SQL 정확도가 2023년 32.7% → 2026년 64.5%로 거의 2배 향상됐다. 그러나 시맨틱 레이어는 여전히 98~100% 정확도로 압도적 우위 — 정확도가 중요한 보드 보고/KPI에는 Semantic Layer가 권장되며, 애드혹 탐색에는 Text-to-SQL도 충분.

연관 개념


Source: Beyond the Dashboard - How BlaBlaCar PMs Use AI to Self-Serve Data, Inside Metas Home-Grown AI Analytics Agent, Your Data Agents Need Context, Pinterest - Unified Context-Intent Embeddings for Scalable Text-to-SQL