Using LLMs to Amplify Human Labeling and Improve Dash Search Relevance
Author: Dmitriy Meyerzon | Source: Dropbox Tech Blog | Published: 2026-02-26
한 줄 요약
Dropbox Dash는 소규모 인간 레이블을 앵커로 LLM이 수십만~수백만 개의 관련성 레이블을 생성하는 하이브리드 접근으로, 인간 판단을 일관성 있게 대규모로 증폭한다.
핵심 주장/내용
- 관련성 레이블 3가지 소스: 사용자 행동 추론, 인간 수동 레이블, LLM 생성 레이블 — 마지막 두 가지를 결합
- 인간 레이블: 소규모·고품질의 내부 데이터만 사용(고객 데이터 없음), LLM 프롬프트 튜닝에 활용
- LLM 레이블: 수십만~수백만 규모로 생성, MSE로 인간 판정과 차이 측정
- 관련성은 1~5 등급 척도, 쿼리·사용자·시점에 따라 달라지는 동적 속성
- “diet sprite” 같은 내부 용어를 이해하기 위해 LLM에 컨텍스트 조사 도구 제공
- DSPy로 프롬프트 자동 최적화; 인간 기준 레이블셋이 모델 교체·제품 변화 시에도 anchor 역할
주요 수치 / 사실
- 레이블 규모: 수십만 ~ 수백만 개
- 평가 지표: MSE(1~5 척도에서 정확 일치 보상, 불일치 시 점진적 패널티)
- “LLM은 인간을 대체하는 것이 아니라 일관성 있게 대규모로 적용하게 한다”
관련 위키
Source: 원문 보기