Apache DataFusion: Eine leistungsstarke und erweiterbare Query-Engine in Rust
2025-01-16
Apache DataFusion ist eine erweiterbare Query-Engine, geschrieben in Rust, die Apache Arrow als In-Memory-Format verwendet. Sie bietet SQL- und DataFrame-APIs, hervorragende Leistung und integrierte Unterstützung für CSV, Parquet, JSON und Avro. DataFusion verfügt über einen vollständigen Query-Planner, eine columnar, streaming, multi-threaded, vektorisierte Ausführungs-Engine und partitionierte Datenquellen. Sie ist nahezu vollständig anpassbar, einschließlich der Möglichkeit, Datenquellen, Query-Sprachen, Funktionen, benutzerdefinierte Operatoren und mehr hinzuzufügen. Verwandte Unterprojekte umfassen DataFusion Python (Python-Bindings), DataFusion Ray (verteilte Version) und DataFusion Comet (Apache Spark-Beschleuniger).
Entwicklung
Query-Engine