Desafio de OCR: Digitalizando as Memórias de Saint-Simon

2024-12-17

O autor passou várias semanas usando OCR para digitalizar uma edição do final do século XIX das memórias francesas do século XVIII, *Les Mémoires de Saint-Simon*. Este gigante de 45 volumes, contendo mais de 3 milhões de palavras, está disponível online como imagens, mas é difícil de ler. O objetivo era criar uma versão de texto legível, pesquisável e copiável. Os desafios incluíram a baixa qualidade da imagem e a análise de diferentes zonas da página (cabeçalhos, texto principal, comentários na margem, notas de rodapé, etc.). A API do Google Vision foi usada para OCR, com um programa Python processando os resultados para identificar e separar o texto de diferentes áreas. Embora os LLMs não tenham conseguido lidar de forma confiável com as referências de notas de rodapé, o autor melhorou o programa e incorporou revisão manual, resultando no lançamento do primeiro volume.

Leia mais