Desafío de OCR: Digitalizando las Memorias de Saint-Simon
El autor dedicó varias semanas a utilizar OCR para digitalizar una edición de finales del siglo XIX de las memorias francesas del siglo XVIII, *Les Mémoires de Saint-Simon*. Esta obra monumental de 45 volúmenes, con más de 3 millones de palabras, está disponible online en imágenes, pero resulta difícil de leer. El objetivo era crear una versión de texto legible, buscable y copiable. Los desafíos incluyeron la baja calidad de las imágenes y el análisis de las diferentes zonas de la página (encabezados, texto principal, comentarios marginales, notas al pie, etc.). Se utilizó la API de Google Vision para OCR, con un programa en Python que procesaba los resultados para identificar y separar el texto de las diferentes áreas. Aunque los modelos de lenguaje grandes (LLMs) no lograron gestionar de forma fiable las referencias a las notas al pie, el autor mejoró el programa e incorporó una revisión manual, lo que resultó en el lanzamiento del primer volumen.
Leer más