Feature Store
ML 모델에 제공할 피처를 중앙화하여 저장·제공·관리하는 인프라
핵심 개념
Feature Store는 ML 파이프라인에서 피처의 정의, 계산, 저장, 서빙을 중앙화하는 시스템이다. 온라인(실시간 서빙)과 오프라인(학습 데이터) 간 일관성을 보장하고, point-in-time correct 조회가 핵심 기능이다.
실시간 피처 계산의 과제
- 온라인/오프라인 일관성: 동일한 피처 정의로 학습과 서빙에서 같은 결과 보장
- Point-in-time 정확성: 학습 시 미래 데이터 누출(data leakage) 방지
- 장기 윈도우: 월~년 단위 슬라이딩 윈도우 집계의 효율적 계산
기존 아키텍처 vs 통합 엔진
기존 (Chronon, Tecton)
- Flink(스트리밍) + Spark(배치) + Redis(서빙) 등 여러 시스템 조합
- 시스템 간 일관성 유지가 운영 부담
- Tecton: 2026년 Databricks에 인수됨
Volga — 통합 접근
- 단일 Rust 바이너리로 스트리밍 + 배치 + 요청 시간 처리 통합
- DataFusion SQL로 피처 정의, Arrow로 처리, SlateDB로 상태 관리
- Tiling: 사전 집계된 타일을 유지하여 장기 윈도우를 효율적으로 처리
- Request Mode: 서빙 로직이 데이터플로우 그래프에 내장되어 외부 캐시 불필요
시장 동향 (2026)
Feature Store 시장은 포인트 솔루션에서 대형 플랫폼으로 통합 중:
- Tecton → Databricks 인수: Feature Store가 독립 제품에서 통합 플랫폼 기능으로 전환
- Volga: 단일 바이너리 통합 엔진이지만 아직 초기 단계로 에코시스템 부족
- 방향: 피처 계산·저장·서빙이 데이터 플랫폼에 네이티브로 통합되는 추세
연관 개념
- Real-Time Stream Processing
- ML Ranking Systems
- Generative Recommender Systems — 시퀀스 기반 추천의 피처 서빙