A/B Testing and Experimentation

대규모 실험의 설계·실행·의사결정 품질을 체계적으로 확보하는 방법론

핵심 개념

A/B 테스팅은 데이터 기반 의사결정의 핵심 도구지만, 조직이 성장하면서 실험 수량은 늘어나는 반면 품질은 저하되는 문제가 발생한다. 검정력 부족, 사전 가설 없는 실험, 결과 해석 편향이 대표적 증상이다.

Booking.com — 실험 품질 스케일링

Booking.com은 설계(design), 실행(execution), 의사결정(decision) 3단계 전반에 걸쳐 품질을 내재화하는 접근을 취했다:

3단계 품질 내재화

단계	문제	해결
설계	검정력 부족, 가설 부재	Quality Tab이 power calculation과 사전 등록 가설을 실시간 강제
실행	비표준 세그먼트, 조기 종료	데이터 사이언스 앰배서더가 팀에 상주
의사결정	결과 해석 편향	피어 리뷰 프랙티스 도입

핵심 메커니즘

데이터 사이언스 앰배서더: 각 제품 팀에 상주하는 통계 전문가로 실험 설계 단계부터 관여
Quality Tab: 실험 설정 UI에 통합되어 검정력 계산, 사전 가설 등록을 기술적으로 강제
피어 리뷰: 실험 결과 해석 전에 독립적 리뷰를 거치는 프로세스

교훈

가장 큰 ROI는 설계 단계 — 잘못 설계된 실험은 실행을 아무리 잘해도 신뢰할 수 없음
도구(Quality Tab) + 프로세스(피어 리뷰) + 사람(앰배서더)의 3각 접근이 효과적
통계적 검정력이 결과 신뢰성과 의사결정 확신도를 직접 결정

KPI 설계와 실험 품질의 관계

실험의 성패는 “무엇을 측정할 것인가”에서 결정된다. 올바른 KPI 없이 A/B 테스트를 실행하면 통계적으로 유의미한 결과가 나와도 비즈니스 임팩트가 없을 수 있다:

KPI 유형 구분: North Star(단일 회사 목표), OMTM(임시 집중 지표), Secondary(제품 민감도 지표), Vanity(허영 지표)를 명확히 분리
흔한 실수: 이전 직장의 지표 정의를 그대로 차용, 모든 실험을 LTV/MRR에 직결시키려는 시도
수동 스팟 체크: 5~10개 랜덤 유저의 속성을 수동 확인하는 습관이 자동화 도구의 과신을 방지

언제 쓰는가

상황	권장 접근
실험 수 < 100/년	수동 리뷰로 충분
실험 수 > 1000/년	Quality Tab 등 자동 강제 도구 필요
다수 팀이 독립적으로 실험	앰배서더 + 표준화된 프로세스

A/B 테스트가 불가능할 때

무작위 통제 실험은 증거 사다리 최상단이지만, 콘텐츠의 사용 가치와 프로모션 효과를 분리할 수 없거나 통제군에서 접근 제거가 UX를 훼손하는 경우 비실용적이다. 이때 관찰 데이터로 인과효과를 추정하는 Causal Inference(DoubleML 등)로 한 단계 내려간다 — A/B 테스트의 대안이자 보완.

연관 개념

Causal Inference — A/B 테스트 불가 시 관찰적 인과추론
LLM Evaluation — 크라우드소싱 쌍대 비교(Bradley-Terry) 기반 모델 랭킹
Data Quality and Validation — 실험 데이터의 정확성 검증
Data Scientist Role in AI Era — 실험 설계와 평가의 핵심 역량

Source: Scaling Experimentation Quality at Booking.com, The Analytical Skills No One Teaches You

Data Eng Wiki

탐색기

A-B Testing and Experimentation