تحدي التعرف الضوئي على الحروف: رقمنة مذكرات سان سيمون
أمضى الكاتب عدة أسابيع في استخدام تقنية التعرف الضوئي على الحروف (OCR) لرقمنة نسخة من أواخر القرن التاسع عشر من مذكرات سان سيمون الفرنسية التي تعود إلى القرن الثامن عشر. يحتوي هذا العمل الضخم المكون من 45 مجلداً على أكثر من 3 ملايين كلمة، وهو متاح على الإنترنت كصور، لكنه يصعب قراءته. كان الهدف هو إنشاء نسخة نصية قابلة للقراءة والبحث والنسخ. واجهت التحديات صعوبة جودة الصور وتحليل المناطق المختلفة للصفحة (العناوين، النص الرئيسي، التعليقات الهامشية، الحواشي السفلية، إلخ). تم استخدام واجهة برمجة تطبيقات Google Vision لـ OCR، مع برنامج Python لمعالجة النتائج لتحديد وفصل النص من المناطق المختلفة. وبالرغم من عدم قدرة نماذج اللغة الكبيرة (LLMs) على التعامل بشكل موثوق مع إشارات الحواشي السفلية، فقد قام الكاتب بتحسين البرنامج وأضاف مراجعة يدوية، مما أدى إلى إصدار المجلد الأول.