A/B Testing and Experimentation

대규모 실험의 설계·실행·의사결정 품질을 체계적으로 확보하는 방법론


핵심 개념

A/B 테스팅은 데이터 기반 의사결정의 핵심 도구지만, 조직이 성장하면서 실험 수량은 늘어나는 반면 품질은 저하되는 문제가 발생한다. 검정력 부족, 사전 가설 없는 실험, 결과 해석 편향이 대표적 증상이다.

Booking.com — 실험 품질 스케일링

Booking.com은 설계(design), 실행(execution), 의사결정(decision) 3단계 전반에 걸쳐 품질을 내재화하는 접근을 취했다:

3단계 품질 내재화

단계문제해결
설계검정력 부족, 가설 부재Quality Tab이 power calculation과 사전 등록 가설을 실시간 강제
실행비표준 세그먼트, 조기 종료데이터 사이언스 앰배서더가 팀에 상주
의사결정결과 해석 편향피어 리뷰 프랙티스 도입

핵심 메커니즘

  • 데이터 사이언스 앰배서더: 각 제품 팀에 상주하는 통계 전문가로 실험 설계 단계부터 관여
  • Quality Tab: 실험 설정 UI에 통합되어 검정력 계산, 사전 가설 등록을 기술적으로 강제
  • 피어 리뷰: 실험 결과 해석 전에 독립적 리뷰를 거치는 프로세스

교훈

  • 가장 큰 ROI는 설계 단계 — 잘못 설계된 실험은 실행을 아무리 잘해도 신뢰할 수 없음
  • 도구(Quality Tab) + 프로세스(피어 리뷰) + 사람(앰배서더)의 3각 접근이 효과적
  • 통계적 검정력이 결과 신뢰성과 의사결정 확신도를 직접 결정

KPI 설계와 실험 품질의 관계

실험의 성패는 “무엇을 측정할 것인가”에서 결정된다. 올바른 KPI 없이 A/B 테스트를 실행하면 통계적으로 유의미한 결과가 나와도 비즈니스 임팩트가 없을 수 있다:

  • KPI 유형 구분: North Star(단일 회사 목표), OMTM(임시 집중 지표), Secondary(제품 민감도 지표), Vanity(허영 지표)를 명확히 분리
  • 흔한 실수: 이전 직장의 지표 정의를 그대로 차용, 모든 실험을 LTV/MRR에 직결시키려는 시도
  • 수동 스팟 체크: 5~10개 랜덤 유저의 속성을 수동 확인하는 습관이 자동화 도구의 과신을 방지

언제 쓰는가

상황권장 접근
실험 수 < 100/년수동 리뷰로 충분
실험 수 > 1000/년Quality Tab 등 자동 강제 도구 필요
다수 팀이 독립적으로 실험앰배서더 + 표준화된 프로세스

연관 개념


Source: Scaling Experimentation Quality at Booking.com, The Analytical Skills No One Teaches You