The Revenge of the Data Scientist
Author: Hamel Husain | Source: https://hamel.dev/blog/posts/revenge/ | Published: 2026-03-26
한 줄 요약
LLM 시대에 모델 학습의 중요성은 줄었지만, 평가(eval) 설계, 실험 설계, EDA 같은 데이터 과학의 기초 역량이 오히려 더 중요해졌다.
핵심 주장/내용
- LLM API 덕분에 누구나 AI를 통합할 수 있게 되었지만, 확률적 시스템의 디버깅과 메트릭 설계 작업은 사라지지 않았다
- 다섯 가지 eval 함정: (1) 범용 메트릭 사용, (2) 검증되지 않은 LLM-as-Judge, (3) 부실한 실험 설계, (4) 저품질 데이터/라벨, (5) 과도한 자동화
- LLM-as-Judge를 분류기처럼 취급해야 하며, human label 대비 정밀도/재현율로 검증하고, accuracy 대신 precision/recall을 보고해야 한다
- “Criteria drift” 개념 — 사용자는 LLM 출력을 직접 보기 전까지 자신의 평가 기준을 정확히 알지 못하므로, 라벨링 과정 자체가 기준을 정제한다
- 모든 함정의 근본 원인은 EDA, 모델 평가, 실험 설계, 데이터 수집, Production ML 같은 데이터 과학 기초의 부재이다
주요 수치 / 사실
- 실패 모드가 5%일 때 accuracy는 실제 성능을 숨긴다 (precision/recall 필요)
- OpenAI의 Codex 블로그에서 harness에 관찰성 스택(로그, 메트릭, 트레이스)이 핵심 구성 요소로 포함됨
- 1~5점 Likert 스케일 대신 범위가 좁은 binary pass/fail이 더 유용하다고 권고
관련 위키
Source: 원문 보기