通过学习阅读和书写回归手写笔记

2024-10-29

谷歌研究人员提出了一种名为InkSight的模型,可以将手写笔记的照片转换为数字墨水格式,并再现笔画轨迹,无需专用设备。该模型结合了OCR技术和机器学习,通过学习“阅读”识别文字和学习“书写”输出笔画,从而实现更鲁棒的转换,即使在光线条件差或存在遮挡的情况下也能良好工作。该模型将笔记数字化分成三个步骤:OCR提取单词边界框、分别对每个单词进行渲染以及用渲染的笔画替换原始像素表示。这种方法解决了现有方法对专用硬件的依赖以及缺乏配对训练数据的难题,并通过多任务训练设置(包括识别和渲染任务)提高了模型的泛化能力。