Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Kreuzberg: Una potente biblioteca Python para la extracción de texto de documentos locales

2025-02-15

Kreuzberg es una potente biblioteca Python para la extracción de texto de diversos documentos. Proporciona una interfaz asíncrona unificada que admite archivos PDF, imágenes, documentos de oficina y más. La biblioteca enfatiza el procesamiento local, sin necesidad de APIs externas o servicios en la nube, con alta eficiencia de recursos, dependencias mínimas y procesamiento por lotes. Kreuzberg utiliza un enfoque inteligente para la extracción de texto de PDF, intentando primero la extracción directa y recurriendo al OCR si es necesario. Ofrece un manejo exhaustivo de errores y funciones como APIs asíncronas/síncronas, extracción de metadatos y procesamiento concurrente.

(github.com)

Desarrollo extracción de texto procesamiento de documentos