Data Eng Wiki

❯

❯

data_engineering_weekly

❯

❯

Dropbox Using LLMs to Amplify Human Labeling and Improve Search Relevance

Dropbox - Using LLMs to Amplify Human Labeling and Improve Search Relevance

2026년 4월 16일2 min read

Using LLMs to Amplify Human Labeling and Improve Dash Search Relevance

Author: Dmitriy Meyerzon | Source: Dropbox Tech Blog | Published: 2026-02-26

한 줄 요약

Dropbox Dash는 소규모 인간 레이블을 앵커로 LLM이 수십만~수백만 개의 관련성 레이블을 생성하는 하이브리드 접근으로, 인간 판단을 일관성 있게 대규모로 증폭한다.

핵심 주장/내용

관련성 레이블 3가지 소스: 사용자 행동 추론, 인간 수동 레이블, LLM 생성 레이블 — 마지막 두 가지를 결합
인간 레이블: 소규모·고품질의 내부 데이터만 사용(고객 데이터 없음), LLM 프롬프트 튜닝에 활용
LLM 레이블: 수십만~수백만 규모로 생성, MSE로 인간 판정과 차이 측정
관련성은 1~5 등급 척도, 쿼리·사용자·시점에 따라 달라지는 동적 속성
“diet sprite” 같은 내부 용어를 이해하기 위해 LLM에 컨텍스트 조사 도구 제공
DSPy로 프롬프트 자동 최적화; 인간 기준 레이블셋이 모델 교체·제품 변화 시에도 anchor 역할

주요 수치 / 사실

레이블 규모: 수십만 ~ 수백만 개
평가 지표: MSE(1~5 척도에서 정확 일치 보상, 불일치 시 점진적 패널티)
“LLM은 인간을 대체하는 것이 아니라 일관성 있게 대규모로 적용하게 한다”

관련 위키

LLM Evaluation
LLM-as-Judge

Source: 원문 보기

그래프 뷰

Using LLMs to Amplify Human Labeling and Improve Dash Search Relevance
한 줄 요약
핵심 주장/내용
주요 수치 / 사실
관련 위키

백링크

LLM Evaluation

Created with Quartz v4.5.2 © 2026

junghyun-kim