How We Build Evals for Deep Agents

Author: LangChain | Source: https://blog.langchain.com/how-we-build-evals-for-deep-agents/ | Published: 2026-03-26

한 줄 요약

LangChain이 Deep Agents를 위해 행동 중심의 타깃 eval을 설계하고, 정확성과 효율성(step ratio, tool call ratio, latency ratio)을 함께 측정하는 실전 평가 체계를 공유한다.

“더 많은 eval = 더 나은 에이전트”가 아니며, 프로덕션에서 실제로 중요한 행동을 타깃으로 한 소수의 정밀한 eval이 효과적이다
eval 데이터 소싱: (1) 에이전트 독푸딩 중 발견된 실패, (2) Terminal Bench 2.0, BFCL 등 외부 벤치마크 선별 적용, (3) 수작업으로 작성한 행동 단위 테스트
메트릭은 정확성(correctness)을 먼저 확인한 후, 효율성(step ratio, tool call ratio, latency ratio, solve rate)으로 모델 간 비교한다
이상적 궤적(ideal trajectory)을 정의해 비효율적이지만 정확한 실행과 효율적인 실행을 정량적으로 구분한다
eval을 카테고리(file_operations, retrieval, tool_use, memory, conversation, summarization 등)로 분류하여 중간 수준의 성능 파악이 가능하다