Kreuzberg: Una potente biblioteca Python para la extracción de texto de documentos locales

2025-02-15
Kreuzberg: Una potente biblioteca Python para la extracción de texto de documentos locales

Kreuzberg es una potente biblioteca Python para la extracción de texto de diversos documentos. Proporciona una interfaz asíncrona unificada que admite archivos PDF, imágenes, documentos de oficina y más. La biblioteca enfatiza el procesamiento local, sin necesidad de APIs externas o servicios en la nube, con alta eficiencia de recursos, dependencias mínimas y procesamiento por lotes. Kreuzberg utiliza un enfoque inteligente para la extracción de texto de PDF, intentando primero la extracción directa y recurriendo al OCR si es necesario. Ofrece un manejo exhaustivo de errores y funciones como APIs asíncronas/síncronas, extracción de metadatos y procesamiento concurrente.