Kreuzberg: Eine leistungsstarke Python-Bibliothek zur Textextraktion aus lokalen Dokumenten

2025-02-15
Kreuzberg: Eine leistungsstarke Python-Bibliothek zur Textextraktion aus lokalen Dokumenten

Kreuzberg ist eine leistungsstarke Python-Bibliothek zur Textextraktion aus verschiedenen Dokumenten. Sie bietet eine einheitliche asynchrone Schnittstelle mit Unterstützung für PDFs, Bilder, Office-Dokumente und mehr. Die Bibliothek konzentriert sich auf die lokale Verarbeitung, benötigt keine externen APIs oder Cloud-Dienste, zeichnet sich durch hohe Ressourceneffizienz, minimale Abhängigkeiten und Batch-Verarbeitung aus. Kreuzberg verwendet einen intelligenten Ansatz zur PDF-Textextraktion, versucht zunächst die direkte Extraktion und greift bei Bedarf auf OCR zurück. Sie bietet umfassende Fehlerbehandlung und Funktionen wie asynchrone/synchronen APIs, Metadatenextraktion und parallele Verarbeitung.

Entwicklung Textextraktion