A/B Testing and Experimentation
대규모 실험의 설계·실행·의사결정 품질을 체계적으로 확보하는 방법론
핵심 개념
A/B 테스팅은 데이터 기반 의사결정의 핵심 도구지만, 조직이 성장하면서 실험 수량은 늘어나는 반면 품질은 저하되는 문제가 발생한다. 검정력 부족, 사전 가설 없는 실험, 결과 해석 편향이 대표적 증상이다.
Booking.com — 실험 품질 스케일링
Booking.com은 설계(design), 실행(execution), 의사결정(decision) 3단계 전반에 걸쳐 품질을 내재화하는 접근을 취했다:
3단계 품질 내재화
| 단계 | 문제 | 해결 |
|---|---|---|
| 설계 | 검정력 부족, 가설 부재 | Quality Tab이 power calculation과 사전 등록 가설을 실시간 강제 |
| 실행 | 비표준 세그먼트, 조기 종료 | 데이터 사이언스 앰배서더가 팀에 상주 |
| 의사결정 | 결과 해석 편향 | 피어 리뷰 프랙티스 도입 |
핵심 메커니즘
- 데이터 사이언스 앰배서더: 각 제품 팀에 상주하는 통계 전문가로 실험 설계 단계부터 관여
- Quality Tab: 실험 설정 UI에 통합되어 검정력 계산, 사전 가설 등록을 기술적으로 강제
- 피어 리뷰: 실험 결과 해석 전에 독립적 리뷰를 거치는 프로세스
교훈
- 가장 큰 ROI는 설계 단계 — 잘못 설계된 실험은 실행을 아무리 잘해도 신뢰할 수 없음
- 도구(Quality Tab) + 프로세스(피어 리뷰) + 사람(앰배서더)의 3각 접근이 효과적
- 통계적 검정력이 결과 신뢰성과 의사결정 확신도를 직접 결정
KPI 설계와 실험 품질의 관계
실험의 성패는 “무엇을 측정할 것인가”에서 결정된다. 올바른 KPI 없이 A/B 테스트를 실행하면 통계적으로 유의미한 결과가 나와도 비즈니스 임팩트가 없을 수 있다:
- KPI 유형 구분: North Star(단일 회사 목표), OMTM(임시 집중 지표), Secondary(제품 민감도 지표), Vanity(허영 지표)를 명확히 분리
- 흔한 실수: 이전 직장의 지표 정의를 그대로 차용, 모든 실험을 LTV/MRR에 직결시키려는 시도
- 수동 스팟 체크: 5~10개 랜덤 유저의 속성을 수동 확인하는 습관이 자동화 도구의 과신을 방지
언제 쓰는가
| 상황 | 권장 접근 |
|---|---|
| 실험 수 < 100/년 | 수동 리뷰로 충분 |
| 실험 수 > 1000/년 | Quality Tab 등 자동 강제 도구 필요 |
| 다수 팀이 독립적으로 실험 | 앰배서더 + 표준화된 프로세스 |
연관 개념
- Data Quality and Validation — 실험 데이터의 정확성 검증
- Data Scientist Role in AI Era — 실험 설계와 평가의 핵심 역량
Source: Scaling Experimentation Quality at Booking.com, The Analytical Skills No One Teaches You