LLM Platform Engineering

“Calling the model is the easy part.” — Whatnot Engineering


핵심 개념

LLM Platform Engineering은 LLM API 호출을 넘어서, 프로덕션 LLM 시스템의 반복 속도(velocity), 신뢰성(reliability), 품질 신뢰(trust)를 체계적으로 보장하는 인프라 구축 분야다. 모델 자체가 아닌 “모델 주변의 모든 것”을 엔지니어링한다.

3대 축

Velocity (반복 속도)

  • 비엔지니어 참여: PM, Ops, 도메인 전문가도 프롬프트 실험 가능
  • Post-exposure logging: 두 프롬프트 variant가 같은 출력을 낼 때 exposure 미집계 → 실제 차이에만 집중하여 10x+ 빠른 반복
  • Tool Registry: 엔지니어가 도구 정의 → 공유 카탈로그 자동 등록 → PM이 직접 프롬프트에 부착

Trust (품질 신뢰)

  • Deterministic checks: JSON 유효성, 필수 필드, 올바른 tool call (table stakes)
  • LLM-as-Judge 캘리브레이션: 도메인 전문가가 evaluator에 직접 교육, 프로덕션 드리프트 사전 감지
  • 데이터 마이닝: 이상하거나 높은 가치의 예시를 자동 서피싱 → 평가 셋이 제품과 함께 진화

Reliability (안정성)

  • 멀티 프로바이더 + fallback 기본 제공
  • Caching, rate limiting, guardrails를 플랫폼 레벨에서 처리
  • 개별 팀이 아닌 플랫폼이 reliability를 소유

플랫폼 기반 요건

Whatnot 사례에서 빠른 LLM 플랫폼 구축의 핵심 조건:

  • 통합 코드베이스 (단일 언어, 단일 리포)
  • 기존 데이터 인프라 (로깅, 분석 싱크, 실험 프레임워크)
  • 내부 플랫폼 프리미티브 (공유 도구)

반대로 다중 언어, 다중 마이크로서비스, 분산된 소유권 환경에서는 동일 경로를 따르기 훨씬 어렵다.

MCP를 통한 에이전트 통합 (Teads 사례)

  • 기존 API → MCP 래핑 (1시간 이내)
  • 초기 실패: 에이전트가 날짜 오류, 존재하지 않는 피처 사용
  • 해결: 컨텍스트 도구 추가 (데이터셋 프로빙, 에러 조회, 피처 정보)
  • 비용 제어: 비용 추정 도구로 비싼 실험 전 허가 요구
  • 결과: 48시간 내 200+ 실험, ~$1M 마진 증가

연관 개념


Source: The Model is the Easy Part - LLM Platform at Whatnot, We Let AI Agents Orchestrate Our ML Experiments