OCR古籍挑战:将圣西门回忆录数字化

2024-12-17

作者耗时数周,利用OCR技术对19世纪末的法国古籍《圣西门回忆录》进行数字化处理。这套45卷巨著包含超过300万字,图片版在线可见,但阅读困难。作者的目标是创建一个可读、可搜索、可复制的文本版本。过程中,他克服了图像质量差、页面区域划分(页眉、正文、注释、脚注等)困难等挑战,利用Google Vision API进行OCR,并编写Python程序处理OCR结果,识别并分离不同区域的文本。尽管LLM在脚注引用方面表现不佳,但作者通过改进程序和人工校对,最终将第一卷成果上线。

开发