OCRの挑戦:サン=シモンの回想録のデジタル化

2024-12-17

著者は数週間かけて、19世紀後半の18世紀フランスの回想録『サン=シモンの回想録』をOCRを使ってデジタル化しました。この45巻の大作は300万語以上あり、画像としてオンラインで公開されていますが、読みづらいです。目標は、読みやすく、検索可能で、コピー可能なテキスト版を作成することでした。課題は、画像の品質が低く、ページ領域(ヘッダー、本文、余白の注釈、脚注など)の区別が困難だったことです。OCRにはGoogle Vision APIを使用し、Pythonプログラムで結果を処理して、異なる領域のテキストを識別・分離しました。大規模言語モデル(LLM)は脚注の参照を信頼できる方法で処理できませんでしたが、著者はプログラムを改良し、手動による校正を取り入れることで、最初の巻を公開することができました。