How We Build Evals for Deep Agents

Author: LangChain | Source: https://blog.langchain.com/how-we-build-evals-for-deep-agents/ | Published: 2026-03-26


한 줄 요약

LangChain이 Deep Agents를 위해 행동 중심의 타깃 eval을 설계하고, 정확성과 효율성(step ratio, tool call ratio, latency ratio)을 함께 측정하는 실전 평가 체계를 공유한다.

핵심 주장/내용

  • “더 많은 eval = 더 나은 에이전트”가 아니며, 프로덕션에서 실제로 중요한 행동을 타깃으로 한 소수의 정밀한 eval이 효과적이다
  • eval 데이터 소싱: (1) 에이전트 독푸딩 중 발견된 실패, (2) Terminal Bench 2.0, BFCL 등 외부 벤치마크 선별 적용, (3) 수작업으로 작성한 행동 단위 테스트
  • 메트릭은 정확성(correctness)을 먼저 확인한 후, 효율성(step ratio, tool call ratio, latency ratio, solve rate)으로 모델 간 비교한다
  • 이상적 궤적(ideal trajectory)을 정의해 비효율적이지만 정확한 실행과 효율적인 실행을 정량적으로 구분한다
  • eval을 카테고리(file_operations, retrieval, tool_use, memory, conversation, summarization 등)로 분류하여 중간 수준의 성능 파악이 가능하다

주요 수치 / 사실

  • 이상적 궤적 예시: 4 steps, 4 tool calls, ~8초 vs 비효율 궤적: 6 steps, 5 tool calls, ~14초
  • Step ratio 1.5 = 이상 대비 50% 더 많은 단계, Latency ratio 1.75 = 75% 더 느림
  • pytest + GitHub Actions로 CI에서 eval 실행, LangSmith로 모든 실행 트레이스 공유
  • Deep Agents 리포지토리에서 eval 아키텍처 및 구현 전체 오픈소스 공개

관련 위키


Source: 원문 보기