Kreuzberg : Une puissante bibliothèque Python d'extraction de texte de documents locaux
Kreuzberg est une puissante bibliothèque Python pour l'extraction de texte à partir de divers documents. Elle fournit une interface asynchrone unifiée prenant en charge les PDF, les images, les documents bureautiques et plus encore. La bibliothèque met l'accent sur le traitement local, ne nécessitant aucune API externe ou service cloud, offrant une grande efficacité des ressources, des dépendances minimales et un traitement par lots. Kreuzberg utilise une approche intelligente de l'extraction de texte PDF, en essayant d'abord l'extraction directe et en recourant à l'OCR si nécessaire. Elle offre une gestion complète des erreurs et des fonctionnalités telles que les API asynchrones/synchrones, l'extraction de métadonnées et le traitement concurrentiel.