Agentic Search over Graphs of Long Documents (LAD-RAG++)
Author: Pierce Lamb | Source: Medium | Published: 2025-12-16
한 줄 요약
LAD-RAG++ 구현기 — 레이아웃 인식 문서 그래프와 에이전틱 검색을 통해 장문 구조화 문서의 RAG 실패 모드를 체계적으로 해결한다.
핵심 주장/내용
- Vanilla RAG의 3가지 실패 모드: 구조 파괴, 고정 Top-K 맹점, 교차 페이지 기억상실
- LAD-RAG는 문서 요소(단락, 테이블, 그림)를 노드로, 계층적·참조·시맨틱 관계를 엣지로 구성
- “러닝 메모리”로 인간 독자를 시뮬레이션: 섹션 계층, 활성 엔티티, 시맨틱 토픽 추적
- 에이전트가 3가지 도구를 동적 사용: NeuroSemanticSearch, SymbolicGraphQuery, Contextualize(Louvain)
- 프로덕션 구현 과제: 엔티티 폭발(변경분만 발행), 엣지 폭발(결정론적 링킹), 메모리 비용(75-80% 감소)
주요 수치 / 사실
- 88페이지 SOC2 보고서에서 580노드 처리
- 메모리 토큰 75~80% 감소 (시간 기반 감쇠)
- Triple-hybrid 검색: BM25 + Dense + SPLADE + ColBERT 리랭킹
- 논문 기준: 90%+ perfect recall, 최대 20% recall 향상
관련 위키
Source: 원문 보기