Apache Hudi: Upserts, Löschungen und inkrementelle Verarbeitung für Big Data
2025-01-23
Apache Hudi ist eine Open-Source Data Lakehouse-Plattform, die auf einem hochperformanten offenen Tabellenformat basiert und das Ingestieren, Indizieren, Speichern, Bereitstellen, Transformieren und Verwalten von Daten in mehreren Cloud-Datenumgebungen ermöglicht. Sie unterstützt verschiedene Datenformate und -quellen, bietet atomare Commits mit Rollback/Restore-Unterstützung und schnelle Upsert/Delete-Funktionen. Ein skalierbares Indexierungssystem beschleunigt Abfragen, während die Unterstützung von Snapshot-, inkrementellen und Time-Travel-Abfragen Flexibilität bietet. Die Integration mit Metadaten-Speichern wie Apache Hive Metastore ist ebenfalls enthalten.