Apache DataFusion:Rustで書かれた強力で拡張可能なクエリエンジン

2025-01-16

Apache DataFusionは、Rustで記述された拡張可能なクエリエンジンで、Apache Arrowをインメモリ形式として使用します。SQLとDataFrame APIを提供し、CSV、Parquet、JSON、Avroなどのデータ形式をサポートし、優れたパフォーマンスとカスタマイズ性を備えています。DataFusionは、完全なクエリプランナー、列指向、ストリーミング、マルチスレッド、ベクトル化された実行エンジン、およびパーティション化されたデータソースを備えています。データソース、クエリ言語、関数、カスタム演算子などを追加することで、ほぼすべての点でカスタマイズできます。関連するサブプロジェクトには、DataFusion Python(Pythonバインディング)、DataFusion Ray(分散バージョン)、DataFusion Comet(Apache Sparkアクセラレータ)などがあります。