Kreuzberg: Una potente biblioteca Python para la extracción de texto de documentos locales
2025-02-15
Kreuzberg es una potente biblioteca Python para la extracción de texto de diversos documentos. Proporciona una interfaz asíncrona unificada que admite archivos PDF, imágenes, documentos de oficina y más. La biblioteca enfatiza el procesamiento local, sin necesidad de APIs externas o servicios en la nube, con alta eficiencia de recursos, dependencias mínimas y procesamiento por lotes. Kreuzberg utiliza un enfoque inteligente para la extracción de texto de PDF, intentando primero la extracción directa y recurriendo al OCR si es necesario. Ofrece un manejo exhaustivo de errores y funciones como APIs asíncronas/síncronas, extracción de metadatos y procesamiento concurrente.