OmniParser V2:基于纯视觉的GUI代理的屏幕解析工具
2025-02-15
OmniParser 是一个用于将用户界面截图解析成结构化易于理解的元素的综合方法,这显著增强了 GPT-4V 生成可准确落地到界面相应区域的动作的能力。最近更新的 OmniParser V2 实现了在 Screen Spot Pro 基准测试中 39.5% 的最新技术水平,并推出了 OmniTool,允许用户通过选择的视觉模型控制 Windows 11 虚拟机。该项目提供了详细的安装说明和演示,模型权重可在 Hugging Face 上获取。