OCR 과제: 생 시몽 회고록 디지털화
2024-12-17
저자는 19세기 후반 18세기 프랑스 회고록인 '생 시몽 회고록'을 OCR을 사용하여 디지털화하는 데 몇 주를 보냈습니다. 이 방대한 45권의 책은 300만 단어 이상이며 이미지 형태로 온라인에 공개되어 있지만 읽기가 어렵습니다. 목표는 읽기 쉽고, 검색 가능하며, 복사 가능한 텍스트 버전을 만드는 것이었습니다. 과제는 이미지 품질이 낮고 페이지 영역(헤더, 본문, 여백 주석, 각주 등)을 구분하기 어려웠던 것입니다. OCR에는 Google Vision API를 사용했고, Python 프로그램으로 결과를 처리하여 서로 다른 영역의 텍스트를 식별하고 분리했습니다. 대규모 언어 모델(LLM)은 각주 참조를 신뢰할 수 있는 방식으로 처리할 수 없었지만, 저자는 프로그램을 개선하고 수동 교정을 도입하여 첫 번째 권을 출판할 수 있었습니다.