Data Eng Wiki

❯

LLM Evaluation

2026년 4월 16일5 min read

LLM Evaluation

LLM 기반 시스템의 품질과 신뢰성을 체계적으로 측정하는 프레임워크

핵심 개념

LLM 평가(Eval)는 모델 또는 에이전트의 출력 품질을 정량적으로 측정하는 체계다. 벤치마크 점수보다 프로덕션 행동 기반 평가가 더 신뢰성 높으며, 평가 시스템 자체의 최적화(프롬프트 튜닝, 모델 전환)도 중요한 과제다.

평가 유형

에이전트 평가 (LangChain Deep Agents)

행동 중심: 프로덕션 에러, BFCL, 수작업 유닛 테스트에서 eval 케이스 추출
이중 메트릭: 정확성(correctness) + Ideal Trajectory 비율(단계/도구 호출 효율성)
실행 인프라: pytest 태그로 서브셋 실행, GitHub Actions CI, LangSmith 추적
비용 관리: 태그된 서브셋으로 평가 범위를 제어

검색 관련성 평가 (Dropbox, Zalando)

LLM-as-Judge 패턴으로 대규모 자동 평가
NMSE(정규화 평균 제곱 오차)로 사람 판정과의 차이 측정
DSPy로 프롬프트 체계적 최적화: 관련성 오류 45% 감소

대규모 LLM 리포트 품질 평가 (Spotify Wrapped)

3.5억 사용자 × 14억 리포트 규모에서 LLM 생성 서사의 품질 자동 평가
165K 리포트를 더 큰 모델(LLM-as-Judge)로 정확도, 안전성, 톤, 포맷 4차원 평가
증류(distillation) 파이프라인으로 비용 효율적 소형 모델 파인튜닝
“LLM 호출은 쉬운 부분, 진짜 일은 용량 계획과 안전 시스템”

데이터 과학 기초 적용 (Hamel Husain)

LLM-as-Judge의 precision/recall을 실제 데이터로 검증
합성 벤치마크 대신 프로덕션 트레이스 분석
도메인 전문가가 기준 정의, LLM이 실행

핵심 원칙

프로덕션 데이터 우선: 벤치마크보다 실제 실패 패턴 기반 eval
측정 가능한 메트릭: 정량적 비교 (NMSE, precision, recall)
점진적 개선: 전면 재작성보다 instruction bullet 추가
비용 인지: eval 실행 비용과 커버리지의 균형

하이브리드 인간-LLM 레이블링 (Dropbox Dash)

소규모 인간 레이블이 LLM 레이블링의 앵커 역할: 인간이 LLM을 가르치고 LLM이 대규모 학습 데이터 생성
관련성은 1~5 등급 척도, MSE로 LLM-인간 판정 차이 측정
내부 도메인 용어(“diet sprite” = 성과 관리 도구) 이해를 위해 LLM에 컨텍스트 조사 도구 제공
DSPy로 프롬프트 자동 최적화; 인간 기준 레이블셋이 모델 교체 시에도 anchor 역할
“LLM은 인간 판단을 대체하는 것이 아니라 일관성 있게 대규모로 적용하게 한다”

AI Evals 플랫폼 비교 (Francesca Lazzeri)

LangSmith, Azure AI Evaluation, Weights & Biases, Humanloop 등 플랫폼마다 강점/약점 존재
단순 벤치마크를 넘어 프로덕션 시나리오 기반 평가가 현실적 품질 측정

연관 개념

LLM-as-Judge
AI Agent
Data Scientist Role in AI Era
Context Engineering
LLM Fine-Tuning

Source: How We Build Evals for Deep Agents, Optimizing Dropbox Dash Relevance Judge with DSPy, The Revenge of the Data Scientist, Inside the Archive The Tech Behind Your 2025 Wrapped Highlights, Dropbox - Using LLMs to Amplify Human Labeling and Improve Search Relevance, Francesca Lazzeri - AI Evals Platforms Comparative Guide

그래프 뷰

LLM Evaluation
핵심 개념
평가 유형
에이전트 평가 (LangChain Deep Agents)
검색 관련성 평가 (Dropbox, Zalando)
대규모 LLM 리포트 품질 평가 (Spotify Wrapped)
데이터 과학 기초 적용 (Hamel Husain)
핵심 원칙
하이브리드 인간-LLM 레이블링 (Dropbox Dash)
AI Evals 플랫폼 비교 (Francesca Lazzeri)
연관 개념

백링크

AI Agent
Booking.com SFT Travel Recommendations
Dropbox - Using LLMs to Amplify Human Labeling and Improve Search Relevance
Francesca Lazzeri - AI Evals Platforms Comparative Guide
Inside the Archive The Tech Behind Your 2025 Wrapped Highlights
How We Build Evals for Deep Agents
Context Engineering
Data Scientist Role in AI Era
LLM Fine-Tuning
LLM-as-Judge
AI in Data Engineering
LLM in Production
index

Created with Quartz v4.5.2 © 2026

junghyun-kim