LLM Evaluation
LLM 기반 시스템의 품질과 신뢰성을 체계적으로 측정하는 프레임워크
핵심 개념
LLM 평가(Eval)는 모델 또는 에이전트의 출력 품질을 정량적으로 측정하는 체계다. 벤치마크 점수보다 프로덕션 행동 기반 평가가 더 신뢰성 높으며, 평가 시스템 자체의 최적화(프롬프트 튜닝, 모델 전환)도 중요한 과제다.
평가 유형
에이전트 평가 (LangChain Deep Agents)
- 행동 중심: 프로덕션 에러, BFCL, 수작업 유닛 테스트에서 eval 케이스 추출
- 이중 메트릭: 정확성(correctness) + Ideal Trajectory 비율(단계/도구 호출 효율성)
- 실행 인프라: pytest 태그로 서브셋 실행, GitHub Actions CI, LangSmith 추적
- 비용 관리: 태그된 서브셋으로 평가 범위를 제어
검색 관련성 평가 (Dropbox, Zalando)
- LLM-as-Judge 패턴으로 대규모 자동 평가
- NMSE(정규화 평균 제곱 오차)로 사람 판정과의 차이 측정
- DSPy로 프롬프트 체계적 최적화: 관련성 오류 45% 감소
대규모 LLM 리포트 품질 평가 (Spotify Wrapped)
- 3.5억 사용자 × 14억 리포트 규모에서 LLM 생성 서사의 품질 자동 평가
- 165K 리포트를 더 큰 모델(LLM-as-Judge)로 정확도, 안전성, 톤, 포맷 4차원 평가
- 증류(distillation) 파이프라인으로 비용 효율적 소형 모델 파인튜닝
- “LLM 호출은 쉬운 부분, 진짜 일은 용량 계획과 안전 시스템”
데이터 과학 기초 적용 (Hamel Husain)
- LLM-as-Judge의 precision/recall을 실제 데이터로 검증
- 합성 벤치마크 대신 프로덕션 트레이스 분석
- 도메인 전문가가 기준 정의, LLM이 실행
핵심 원칙
- 프로덕션 데이터 우선: 벤치마크보다 실제 실패 패턴 기반 eval
- 측정 가능한 메트릭: 정량적 비교 (NMSE, precision, recall)
- 점진적 개선: 전면 재작성보다 instruction bullet 추가
- 비용 인지: eval 실행 비용과 커버리지의 균형
하이브리드 인간-LLM 레이블링 (Dropbox Dash)
- 소규모 인간 레이블이 LLM 레이블링의 앵커 역할: 인간이 LLM을 가르치고 LLM이 대규모 학습 데이터 생성
- 관련성은 1~5 등급 척도, MSE로 LLM-인간 판정 차이 측정
- 내부 도메인 용어(“diet sprite” = 성과 관리 도구) 이해를 위해 LLM에 컨텍스트 조사 도구 제공
- DSPy로 프롬프트 자동 최적화; 인간 기준 레이블셋이 모델 교체 시에도 anchor 역할
- “LLM은 인간 판단을 대체하는 것이 아니라 일관성 있게 대규모로 적용하게 한다”
AI Evals 플랫폼 비교 (Francesca Lazzeri)
- LangSmith, Azure AI Evaluation, Weights & Biases, Humanloop 등 플랫폼마다 강점/약점 존재
- 단순 벤치마크를 넘어 프로덕션 시나리오 기반 평가가 현실적 품질 측정
연관 개념
Source: How We Build Evals for Deep Agents, Optimizing Dropbox Dash Relevance Judge with DSPy, The Revenge of the Data Scientist, Inside the Archive The Tech Behind Your 2025 Wrapped Highlights, Dropbox - Using LLMs to Amplify Human Labeling and Improve Search Relevance, Francesca Lazzeri - AI Evals Platforms Comparative Guide