Using LLMs to Amplify Human Labeling and Improve Dash Search Relevance

Author: Dmitriy Meyerzon | Source: Dropbox Tech Blog | Published: 2026-02-26


한 줄 요약

Dropbox Dash는 소규모 인간 레이블을 앵커로 LLM이 수십만~수백만 개의 관련성 레이블을 생성하는 하이브리드 접근으로, 인간 판단을 일관성 있게 대규모로 증폭한다.

핵심 주장/내용

  • 관련성 레이블 3가지 소스: 사용자 행동 추론, 인간 수동 레이블, LLM 생성 레이블 — 마지막 두 가지를 결합
  • 인간 레이블: 소규모·고품질의 내부 데이터만 사용(고객 데이터 없음), LLM 프롬프트 튜닝에 활용
  • LLM 레이블: 수십만~수백만 규모로 생성, MSE로 인간 판정과 차이 측정
  • 관련성은 1~5 등급 척도, 쿼리·사용자·시점에 따라 달라지는 동적 속성
  • “diet sprite” 같은 내부 용어를 이해하기 위해 LLM에 컨텍스트 조사 도구 제공
  • DSPy로 프롬프트 자동 최적화; 인간 기준 레이블셋이 모델 교체·제품 변화 시에도 anchor 역할

주요 수치 / 사실

  • 레이블 규모: 수십만 ~ 수백만 개
  • 평가 지표: MSE(1~5 척도에서 정확 일치 보상, 불일치 시 점진적 패널티)
  • “LLM은 인간을 대체하는 것이 아니라 일관성 있게 대규모로 적용하게 한다”

관련 위키


Source: 원문 보기