Volga: A Rust Rewrite of a Real-Time AI/ML Data Engine
Author: Andrey Novitskiy | Source: https://volgaai.substack.com/p/volga-a-rust-rewrite-of-a-real-time | Published: 2026-03-18
한 줄 요약
Volga는 Apache DataFusion, Arrow, SlateDB를 기반으로 한 Rust 네이티브 실시간 ML 피처 엔진으로, 스트리밍/배치/요청 시점 실행을 단일 런타임에서 통합하고 ML 특화 윈도우 집계를 네이티브로 지원한다.
핵심 주장/내용
- 실시간 ML 시스템의 핵심 과제인 온라인/오프라인 피처 일관성, point-in-time correct 집계, 긴 슬라이딩 윈도우를 단일 엔진에서 해결한다
- Python(Ray) 기반 초기 버전에서 Rust로 재작성하여 성능, 메모리 제어, 비동기 동시성(Tokio)을 개선했다
- 컴퓨트-스토리지 분리 아키텍처: SlateDB(embedded LSM-tree on S3)로 상태를 외부화하여 독립적 확장이 가능하다
- Request Mode는 스트리밍 연산자의 상태를 비동기로 읽고 요청 시점에 최종 집계를 수행하는 write-time/read-time compute separation 패턴을 구현한다
- top, topn_frequency, categorical 집계 등 ML 피처 엔지니어링 특화 윈도우 함수를 SQL 네이티브로 제공하며, Tiling으로 장기 윈도우를 효율적으로 처리한다
주요 수치 / 사실
- 기술 스택: Rust + Apache DataFusion + Apache Arrow + SlateDB + Tokio + Kameo
- Chronon(Flink+Spark+외부 KV) 대비 단일 standalone 런타임 제공
- Chandy-Lamport 스냅샷 알고리즘 기반 분산 체크포인팅으로 exactly-once 처리 보장
- 현재 개발 진행 중 (코어 런타임 완성, Kubernetes 통합 진행 중)
관련 위키
Source: 원문 보기