How we optimized Dash’s relevance judge with DSPy
Author: Eric Wang, Dmitriy Meyerzon | Source: https://dropbox.tech/machine-learning/optimizing-dropbox-dash-relevance-judge-with-dspy | Published: 2026-03-17
한 줄 요약
Dropbox는 DSPy 프레임워크를 활용하여 LLM 기반 관련성 판정(relevance judge)의 프롬프트를 체계적으로 최적화함으로써, 인간 평가와의 오차를 45% 줄이고 모델 전환 기간을 수주에서 1~2일로 단축했다.
핵심 주장/내용
- Relevance judge는 랭킹, 학습 데이터 생성, 오프라인 평가 등 다중 파이프라인의 핵심이며, 프롬프트가 모델 간 깨끗하게 이전되지 않는 prompt brittleness 문제가 있다
- DSPy의 GEPA optimizer는 모델-인간 불일치 사례에서 구조화된 피드백을 생성하고, 반복적으로 프롬프트를 개선하는 reflection loop을 수행한다
- 고비용 o3 모델에서 저비용 gpt-oss-120b로 전환 시 DSPy 최적화로 NMSE를 8.83에서 4.86으로 45% 감소시켰다
- gemma-3-12b 같은 소형 모델에서는 JSON 포맷 오류가 40% 이상이었으나, DSPy 최적화 후 97% 이상 감소했다
- 프로덕션 o3 judge에는 instruction library 방식으로 제한적 최적화를 적용하여, 안정성을 유지하면서 점진적으로 개선했다
주요 수치 / 사실
- NMSE 45% 감소: 8.83 → 4.86 (gpt-oss-120b, DSPy 최적화 후)
- 모델 전환 기간: 1
2주 → 12일 - gemma-3-12b 포맷 오류: 358건 → 9건 (97%+ 감소)
- gemma-3-12b NMSE: 46.88 → 17.26
- 동일 비용으로 10~100배 더 많은 데이터 라벨링 가능
관련 위키
Source: 원문 보기