Can Agents Replace the Search Stack?
Author: Doug Turnbull | Source: Software Doug Blog | Published: 2026-04-28
한 줄 요약
LLM 에이전트는 상품 검색(agentic search)에서는 효과적이지만, LLM이 모르는 정보를 찾는 딥 리서치에서는 임베딩 대비 개선이 없다.
핵심 주장/내용
- GPT-5에 BM25와 임베딩 검색 도구를 제공하면 NDCG가 0.289에서 0.453으로 크게 향상된다
- 에이전트는 대부분 검색을 한 번만 호출하므로, 최소 4회 이상 다양한 쿼리를 탐색하도록 유도하면 성능이 추가로 개선된다
- “Agentic search”(상품/물건 찾기)와 “Deep research”(LLM이 모르는 정보 찾기)는 근본적으로 다른 문제이다
- Deep research가 개선되지 않는 이유는 LLM이 자신이 모르는 것을 평가할 수 없기 때문이다
주요 수치 / 사실
- Amazon ESCI 데이터셋 기준 NDCG: 0.289 → 0.453 (GPT-5 + BM25 + embedding)
- 에이전트에 최소 4회 검색 호출을 권장하면 추가 성능 향상
관련 위키
Source: 원문 보기