From Events To Real-Time Profiles On Apache Fluss
Author: Giannis Polyzos | Source: Substack | Published: 2026-04-15
한 줄 요약
Apache Fluss의 Aggregation Merge Engine은 프로파일 상태를 스트리밍 스토리지 레이어에 직접 유지하여, 별도 OLAP 엔진 없이 실시간 엔티티 프로파일을 구축한다.
핵심 주장/내용
- 기존 접근: 이벤트→OLAP(StarRocks/ClickHouse)에 push, 프로파일 상태가 쿼리 레이어에 존재 → 스트리밍/프로파일 간 일관성 분리
- Fluss의 혁신: Auto-Increment 컬럼(문자열→정수 매핑) + Roaring Bitmaps(압축 집합 연산) + Aggregation Merge Engine(스토리지 레이어 상태 유지)
- Flink 잡은 거의 상태 없이 단일 원소 비트맵만 write → Fluss가 rbm64 aggregator로 누적 병합
- 복구 시맨틱: UndoRecoveryOperator가 체크포인트-이후 쓰기를 역연산으로 롤백 → replay-safe
- 프로파일 룰이 집합 대수(AND, OR, AND NOT)로 환원 → 나노초 단위 비트맵 연산
주요 수치 / 사실
- 수억 멤버 규모 그룹 멤버십을 압축 저장·쿼리 가능
- 레이턴시: 시간 단위가 아닌 초 단위로 프로파일 업데이트 반영
관련 위키
Source: 원문 보기