Défi OCR : numérisation des Mémoires de Saint-Simon
L’auteur a passé plusieurs semaines à utiliser la reconnaissance optique de caractères (OCR) pour numériser une édition de la fin du XIXe siècle des mémoires françaises du XVIIIe siècle, *Les Mémoires de Saint-Simon*. Cet ouvrage colossal de 45 volumes, contenant plus de 3 millions de mots, est disponible en ligne sous forme d’images, mais il est difficile à lire. L’objectif était de créer une version textuelle lisible, consultable et copiable. Les défis comprenaient la mauvaise qualité des images et l’analyse des différentes zones de la page (en-têtes, texte principal, commentaires en marge, notes de bas de page, etc.). L’API Google Vision a été utilisée pour l’OCR, avec un programme Python traitant les résultats pour identifier et séparer le texte des différentes zones. Bien que les grands modèles linguistiques (LLM) n’aient pas réussi à gérer de manière fiable les références des notes de bas de page, l’auteur a amélioré le programme et intégré une relecture manuelle, ce qui a abouti à la publication du premier volume.