Nanonets-OCR-s: ما هو أبعد من تقنية التعرف الضوئي على الحروف التقليدية مع معالجة الوثائق الذكية

2025-06-16
Nanonets-OCR-s: ما هو أبعد من تقنية التعرف الضوئي على الحروف التقليدية مع معالجة الوثائق الذكية

Nanonets-OCR-s هو نموذج متطور للتعرف الضوئي على الحروف من الصور إلى لغة Markdown، يتجاوز تقنية استخراج النصوص التقليدية. فهو يحول الوثائق إلى تنسيق Markdown مُنظم مع التعرف الذكي على المحتوى والوسم الدلالي، وهو مثالي للمعالجة اللاحقة بواسطة نماذج اللغات الكبيرة (LLMs). تشمل الميزات الرئيسية التعرف على معادلات LaTeX، ووصف الصور الذكي، والكشف عن التوقيعات، واستخراج العلامات المائية، ومعالجة خانات الاختيار الذكية، واستخراج الجداول المعقدة. يمكن استخدام النموذج عبر transformers أو vLLM أو docext.

الذكاء الاصطناعي