OCR-Herausforderung: Digitalisierung der Memoiren von Saint-Simon

2024-12-17

Der Autor verbrachte mehrere Wochen damit, OCR zu verwenden, um eine Ausgabe aus dem späten 19. Jahrhundert der französischen Memoiren aus dem 18. Jahrhundert, *Les Mémoires de Saint-Simon*, zu digitalisieren. Dieses gewaltige Werk mit 45 Bänden und über 3 Millionen Wörtern ist online als Bilder verfügbar, ist aber schwer lesbar. Das Ziel war es, eine lesbare, durchsuchbare und kopierbare Textversion zu erstellen. Herausforderungen waren die schlechte Bildqualität und das Parsen verschiedener Seitenbereiche (Überschriften, Haupttext, Randkommentare, Fußnoten usw.). Die Google Vision API wurde für OCR verwendet, wobei ein Python-Programm die Ergebnisse verarbeitete, um Text aus verschiedenen Bereichen zu identifizieren und zu trennen. Obwohl große Sprachmodelle (LLMs) Fußnotenverweise nicht zuverlässig verarbeiten konnten, verbesserte der Autor das Programm und integrierte eine manuelle Überprüfung, was zur Veröffentlichung des ersten Bandes führte.