Native Geospatial Types in Apache Parquet
Author: Jia Yu, Dewey Dunnington, Kristin Cowalcijk, Feng Zhang | Source: Apache Parquet Blog | Published: 2026-02-13
한 줄 요약
Apache Parquet에 GEOMETRY/GEOGRAPHY가 1등 시민 논리 타입으로 추가되어, 바운딩 박스 통계 기반 공간 쿼리 최적화와 엔진 간 상호운용성이 가능해졌다.
핵심 주장/내용
- 기존에는 지오스페이셜 컬럼이 불투명한 바이너리/문자열로 저장되어 쿼리 엔진이 공간 컬럼을 인식하지 못하고 통계 기반 프루닝이 불가능했다
- GEOMETRY(평면 좌표)와 GEOGRAPHY(구면/타원체 좌표) 두 가지 논리 타입이 도입되어 decimal/timestamp처럼 1등 시민으로 취급된다
- 바운딩 박스 통계를 컬럼 청크와 로우 그룹에 첨부하여, 쿼리 윈도우 외부의 로우 그룹을 건너뛰어 I/O를 크게 절감한다
- GeoParquet 1.0의 사이드카 메타데이터 방식에서 GeoParquet 2.0의 네이티브 타입 시스템으로 진화했다
- Parquet Java, Arrow C++, Rust, DuckDB 등 다양한 에코시스템에서 이미 구현이 진행 중이다
주요 수치 / 사실
- 물리적 저장은 WKB(Well Known Binary) 인코딩 사용
- CRS 정보를 EPSG 코드 또는 PROJJSON으로 파일 메타데이터에 저장
- Apache Iceberg 같은 테이블 포맷과 자연스럽게 통합 가능
관련 위키
Source: 원문 보기