The Revenge of the Data Scientist

Author: Hamel Husain | Source: https://hamel.dev/blog/posts/revenge/ | Published: 2026-03-26

한 줄 요약

LLM 시대에 모델 학습의 중요성은 줄었지만, 평가(eval) 설계, 실험 설계, EDA 같은 데이터 과학의 기초 역량이 오히려 더 중요해졌다.

LLM API 덕분에 누구나 AI를 통합할 수 있게 되었지만, 확률적 시스템의 디버깅과 메트릭 설계 작업은 사라지지 않았다
다섯 가지 eval 함정: (1) 범용 메트릭 사용, (2) 검증되지 않은 LLM-as-Judge, (3) 부실한 실험 설계, (4) 저품질 데이터/라벨, (5) 과도한 자동화
LLM-as-Judge를 분류기처럼 취급해야 하며, human label 대비 정밀도/재현율로 검증하고, accuracy 대신 precision/recall을 보고해야 한다
“Criteria drift” 개념 — 사용자는 LLM 출력을 직접 보기 전까지 자신의 평가 기준을 정확히 알지 못하므로, 라벨링 과정 자체가 기준을 정제한다
모든 함정의 근본 원인은 EDA, 모델 평가, 실험 설계, 데이터 수집, Production ML 같은 데이터 과학 기초의 부재이다