Context Engineering
LLM의 한정된 컨텍스트 윈도우를 효율적으로 관리하여 추론 품질을 극대화하는 기법
핵심 개념
컨텍스트 엔지니어링은 LLM에게 제공하는 정보의 선택, 구조화, 시점을 체계적으로 설계하는 분야다. 모델 크기를 키우는 것보다 컨텍스트를 잘 관리하는 것이 추론 품질에 더 큰 영향을 미친다는 인식에서 출발한다.
5대 패턴 (2026 현황)
- Progressive Disclosure: 필요한 시점에 필요한 정보만 단계적으로 제공
- Compression (압축): 긴 컨텍스트를 요약·압축하여 토큰 효율성 확보
- Routing (라우팅): 쿼리 유형에 따라 적절한 컨텍스트 소스로 분기
- Agentic RAG: 에이전트가 능동적으로 검색·수집·검증하는 RAG
- Tool Management: 도구 호출 자체가 컨텍스트를 생성하므로 도구 선택과 결과 관리가 중요
Context Anchoring
AI 세션 간 컨텍스트를 유지하기 위해 의사결정을 외부 문서에 기록하는 기법이다.
문제: 컨텍스트 붕괴
- LLM의 어텐션은 최근 토큰과 시스템 명령에 편중됨 (Lost in the Middle 현상)
- 의사결정의 이유(why) 가 결정(what) 보다 먼저 소실됨
- 개발자가 세션을 닫지 못하는 악순환 발생
해결: Feature Document
- 프로젝트 수준 프라이밍 문서 + 기능 수준 의사결정 문서의 2레이어
- 결정, 이유, 거부한 대안, 제약, 미결 질문을 기록
- 50줄 문서로 수천 줄의 코드가 담지 못하는 추론 맥락을 전달
- 토큰 비용 98% 절감, 새 세션 시작 시 30초 내 컨텍스트 복원
Markdown 기반 메모리
Manus, OpenClaw, Claude Code 등 최신 에이전트들이 벡터 DB 대신 마크다운 파일을 1차 메모리 레이어로 사용하는 추세. KV-cache 효율성, 파일시스템 계층 기반 스코핑, sqlite-vec로 경량 시맨틱 검색을 결합하면 벡터 DB 대비 토큰 비용 90% 절감이 가능하다.
언제 쓰는가
| 시나리오 | Context Anchoring 필요? |
|---|---|
| 단발성 질문, 유틸리티 작성 | 불필요 |
| 1시간 이내 단일 세션 기능 | 경량 — 핵심 결정만 기록 |
| 수일간 다중 세션 기능 개발 | 필수 — 전체 Feature Document |
| 다수 개발자 협업 기능 | 필수 — 공유 문서 |
컨텍스트 그래프
Knowledge Representation의 AI 응용으로, 태스크에 필요한 지식 부분집합 — 온톨로지 정의, 택소노미 계층, 실제 인스턴스, 정책, 비교 예시 — 을 패키징하여 에이전트에게 전달하는 구조다. 온톨로지, 택소노미, 데이터 모델, 시맨틱 레이어 등 기존 데이터 아키텍처 개념들과 상당 부분 겹치며, 자동 생성으로 중복을 줄일 수 있다.
프리컴퓨트 컨텍스트: Meta의 멀티에이전트 접근
Meta는 “Compass, Not Encyclopedia” 원칙으로 데이터 파이프라인의 암묵지를 사전 생성(pre-compute)하여 에이전트에게 제공한다:
- 50+ 특화 에이전트가 코드베이스를 분석하여 모듈당 25-35줄(~1,000 토큰) 컨텍스트 파일 생성
- 에이전트 도구 호출·토큰 사용 40% 감소, 2일 → 30분 워크플로우 단축
- 주기적 자동 갱신으로 “오래된 컨텍스트는 없는 것보다 나쁘다” 문제 해결
- 핵심 차별점: 간결성, 옵트인 로딩, 멀티라운드 비평가 품질 게이트
이 접근은 Context Anchoring(사람이 작성)과 보완적이다 — 사람은 의사결정의 이유를, AI는 코드베이스의 암묵적 패턴을 문서화한다.
장기 실행 에이전트의 컨텍스트 관리 (Slack 사례)
Slack의 보안 수사 시스템은 메시지 히스토리를 전혀 전달하지 않고 3가지 보완적 컨텍스트 채널만으로 멀티에이전트 정렬을 유지한다:
- Director’s Journal: 구조화된 작업 메모리 (결정/관찰/발견/질문/행동/가설 6종 엔트리)
- Critic’s Review: 신뢰도 점수(0.0-1.0)가 매겨진 Expert 발견 보고서. 170K건 분석 시 ~26%가 plausibility 미달
- Critic’s Timeline: 증거 기반 시간순 내러티브, 중복 제거·타임스탬프 충돌 해소 규칙 적용
핵심 인사이트: 무한한 컨텍스트 윈도우가 있더라도 메시지 히스토리 전달이 반드시 바람직하지 않음 — 누적 컨텍스트가 새 정보에 대한 적절한 반응을 방해할 수 있다.
에이전트 하니스의 컨텍스트 관리 (2026 수렴 패턴)
Pi, OpenClaw, Claude Code, Letta 등 주요 에이전트 하니스들의 컨텍스트 관리 전략이 50년 컴퓨팅의 메모리 관리 계층(레지스터→캐시→페이지→스왑)과 동일한 방향으로 수렴하고 있다:
파일 읽기 관리
- 모든 하니스가 파일 읽기에 하드캡 적용 + offset/limit 페이지네이션
- Claude Code: 256KB 바이트 게이트 + 25K 토큰 게이트, 원격 feature flag로 조정 가능
- Letta: 파일을 벡터 스토어에 임베딩, 모델 컨텍스트 크기에 따라 LRU 관리
세션 프루닝(컴팩션)
- 토큰 임계값 초과 시 LLM 기반 요약으로 오래된 컨텍스트 압축
- Claude Code: 167K 토큰에서 9섹션 구조화 요약 + 최근 5개 파일 재첨부
- OpenClaw: 사전 컴팩션 상태 플러시(에이전트가 스스로 상태 저장 후 히스토리 삭제)
대형 도구 결과 처리
- Pi, OpenClaw, Claude Code 모두 과대 도구 결과를 디스크에 영속화하고 2KB 프리뷰로 교체
- Arize의 Alyx도 동일 패턴: JSON을 압축 프리뷰 + 서버사이드 전체 복사본으로 분리
핵심 인사이트: “모델에게 모든 것을 보여주는 것”이 아니라 “적시에 올바른 작업 집합을 제공하고, 모델이 동적으로 자신의 컨텍스트를 관리할 수 있게 하는 것”이 목표다.
연관 개념
- AI Agent
- Semantic Layer
- LLM Evaluation
- Knowledge Representation
- MCP (Model Context Protocol)
- RAG
- LLM Platform Engineering
- AI-Ready Data
Source: State of Context Engineering in 2026, Context Anchoring, The Markdown File That Beat a 50M Vector Database, Ontology Taxonomy Data Model Context Graph and Friends, How Meta Used AI to Map Tribal Knowledge, Managing Context in Long-Run Agentic Applications, Context Management in Agent Harnesses