Volga: A Rust Rewrite of a Real-Time AI/ML Data Engine

Author: Andrey Novitskiy | Source: https://volgaai.substack.com/p/volga-a-rust-rewrite-of-a-real-time | Published: 2026-03-18


한 줄 요약

Volga는 Apache DataFusion, Arrow, SlateDB를 기반으로 한 Rust 네이티브 실시간 ML 피처 엔진으로, 스트리밍/배치/요청 시점 실행을 단일 런타임에서 통합하고 ML 특화 윈도우 집계를 네이티브로 지원한다.

핵심 주장/내용

  • 실시간 ML 시스템의 핵심 과제인 온라인/오프라인 피처 일관성, point-in-time correct 집계, 긴 슬라이딩 윈도우를 단일 엔진에서 해결한다
  • Python(Ray) 기반 초기 버전에서 Rust로 재작성하여 성능, 메모리 제어, 비동기 동시성(Tokio)을 개선했다
  • 컴퓨트-스토리지 분리 아키텍처: SlateDB(embedded LSM-tree on S3)로 상태를 외부화하여 독립적 확장이 가능하다
  • Request Mode는 스트리밍 연산자의 상태를 비동기로 읽고 요청 시점에 최종 집계를 수행하는 write-time/read-time compute separation 패턴을 구현한다
  • top, topn_frequency, categorical 집계 등 ML 피처 엔지니어링 특화 윈도우 함수를 SQL 네이티브로 제공하며, Tiling으로 장기 윈도우를 효율적으로 처리한다

주요 수치 / 사실

  • 기술 스택: Rust + Apache DataFusion + Apache Arrow + SlateDB + Tokio + Kameo
  • Chronon(Flink+Spark+외부 KV) 대비 단일 standalone 런타임 제공
  • Chandy-Lamport 스냅샷 알고리즘 기반 분산 체크포인팅으로 exactly-once 처리 보장
  • 현재 개발 진행 중 (코어 런타임 완성, Kubernetes 통합 진행 중)

관련 위키


Source: 원문 보기