Kreuzberg:強力なローカルドキュメントテキスト抽出Pythonライブラリ

2025-02-15
Kreuzberg:強力なローカルドキュメントテキスト抽出Pythonライブラリ

Kreuzbergは、様々なドキュメントからテキストを抽出するための強力なPythonライブラリです。PDF、画像、オフィスドキュメントなど、多くの形式をサポートする統一された非同期インターフェースを提供します。このライブラリはローカル処理に重点を置いており、外部APIやクラウドサービスに依存しません。リソース効率が高く、依存関係も少なく、バッチ処理にも対応しています。Kreuzbergは、PDFテキスト抽出に対してスマートなアプローチを採用しており、まず直接テキストの抽出を試み、失敗した場合はOCRに自動的にフォールバックします。非同期/同期のAPI、メタデータ抽出、並列処理などの包括的な機能とエラー処理を提供します。