Agentic Search over Graphs of Long Documents (LAD-RAG++)

Author: Pierce Lamb | Source: Medium | Published: 2025-12-16


한 줄 요약

LAD-RAG++ 구현기 — 레이아웃 인식 문서 그래프와 에이전틱 검색을 통해 장문 구조화 문서의 RAG 실패 모드를 체계적으로 해결한다.

핵심 주장/내용

  • Vanilla RAG의 3가지 실패 모드: 구조 파괴, 고정 Top-K 맹점, 교차 페이지 기억상실
  • LAD-RAG는 문서 요소(단락, 테이블, 그림)를 노드로, 계층적·참조·시맨틱 관계를 엣지로 구성
  • “러닝 메모리”로 인간 독자를 시뮬레이션: 섹션 계층, 활성 엔티티, 시맨틱 토픽 추적
  • 에이전트가 3가지 도구를 동적 사용: NeuroSemanticSearch, SymbolicGraphQuery, Contextualize(Louvain)
  • 프로덕션 구현 과제: 엔티티 폭발(변경분만 발행), 엣지 폭발(결정론적 링킹), 메모리 비용(75-80% 감소)

주요 수치 / 사실

  • 88페이지 SOC2 보고서에서 580노드 처리
  • 메모리 토큰 75~80% 감소 (시간 기반 감쇠)
  • Triple-hybrid 검색: BM25 + Dense + SPLADE + ColBERT 리랭킹
  • 논문 기준: 90%+ perfect recall, 최대 20% recall 향상

관련 위키


Source: 원문 보기