Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Kreuzberg : Une puissante bibliothèque Python d'extraction de texte de documents locaux

2025-02-15

Kreuzberg est une puissante bibliothèque Python pour l'extraction de texte à partir de divers documents. Elle fournit une interface asynchrone unifiée prenant en charge les PDF, les images, les documents bureautiques et plus encore. La bibliothèque met l'accent sur le traitement local, ne nécessitant aucune API externe ou service cloud, offrant une grande efficacité des ressources, des dépendances minimales et un traitement par lots. Kreuzberg utilise une approche intelligente de l'extraction de texte PDF, en essayant d'abord l'extraction directe et en recourant à l'OCR si nécessaire. Elle offre une gestion complète des erreurs et des fonctionnalités telles que les API asynchrones/synchrones, l'extraction de métadonnées et le traitement concurrentiel.

(github.com)

Développement extraction de texte traitement de documents