نماذج اللغات الكبيرة تفشل في التعرف الضوئي على الحروف المعقدة: لماذا تكافح نماذج اللغات الكبيرة مع ملفات PDF؟
2025-02-07

اكتشفت شركة Pulse، التي تهدف إلى استخراج البيانات من جداول البيانات و ملفات PDF، قيدًا بالغ الأهمية في استخدام نماذج اللغات الكبيرة (LLMs) للتعرف الضوئي على الحروف (OCR). في حين أن نماذج LLMs تتفوق في توليد النصوص والتلخيص، إلا أنها تفشل بشكل كبير عند التعامل مع ملفات PDF والجدول المعقدة. الطبيعة الاحتمالية لنماذج LLMs ومعالجتها المجردة للصور تؤدي إلى الهلوسة، وفقدان البيانات، و سوء التفسير، مما يشكل مخاطر كبيرة، خاصة مع البيانات المالية والطبية. علاوة على ذلك، فإن نماذج LLMs معرضة لهجمات حقن المطالبات، مما يثير مخاوف تتعلق بالأمان والأخلاقيات. تخلت Pulse في النهاية عن نماذج LLMs لـ OCR، وهي تعمل على تطوير حل مخصص يدمج خوارزميات رؤية الكمبيوتر التقليدية ومحولات الرؤية.
التطوير
التعرف الضوئي على الحروف