利用视觉模型改善无障碍环境

2024-10-04

本文介绍了作者利用视觉模型改进数学课程中图像方程式可访问性的案例。作者发现旧课程中的图像方程式存在字体小、辨认困难且缺乏替代文本的问题。为解决这个问题,作者尝试使用GPT-4o和Gemini等大型语言模型识别图像中的数学公式并生成LaTeX格式文本。结果表明,Gemini 1.5 Flash模型在准确性和成本效益方面表现出色,能够高效地将图像方程式转换为可访问的LaTeX格式,从而提高了课程材料的可访问性。