Apache Hudi: Upserts, eliminaciones y procesamiento incremental para Big Data
2025-01-23
Apache Hudi es una plataforma de data lakehouse de código abierto, construida sobre un formato de tabla abierta de alto rendimiento para ingerir, indexar, almacenar, servir, transformar y gestionar datos en múltiples entornos de datos en la nube. Admite varios formatos de datos y fuentes, ofrece confirmaciones atómicas con soporte de rollback/restauración, y cuenta con capacidades rápidas de upsert/delete. Un subsistema de indexación escalable acelera las consultas, mientras que el soporte para consultas de instantánea, incrementales y de viaje en el tiempo ofrece flexibilidad. También se incluye la integración con almacenes de metadatos como Apache Hive Metastore.
Desarrollo
procesamiento incremental