Kreuzberg: مكتبة بايثون قوية لاستخراج النصوص من المستندات المحلية
2025-02-15
Kreuzberg هي مكتبة بايثون قوية لاستخراج النصوص من أنواع مختلفة من المستندات. توفر واجهة غير متزامنة موحدة تدعم ملفات PDF والصور والمستندات المكتبية وغيرها. تركز المكتبة على المعالجة المحلية، ولا تتطلب أي واجهات برمجة تطبيقات خارجية أو خدمات سحابية، تتميز بكفاءة عالية في استخدام الموارد، وعدد قليل من التبعيات، ومعالجة الدُفعات. تستخدم Kreuzberg نهجًا ذكيًا لاستخراج نصوص PDF، حيث تحاول أولاً الاستخراج المباشر، ثم تلجأ إلى تقنية التعرف الضوئي على الحروف (OCR) عند الضرورة. توفر معالجة شاملة للأخطاء وميزات مثل واجهات برمجة التطبيقات غير المتزامنة/المتزامنة، واستخراج البيانات الوصفية، والمعالجة المتزامنة.