Anthropic 的计算机使用能力测评
2024-10-25
Anthropic 发布了 Haiku 3.5 和 Sonnet 3.5,其中 Sonnet 3.5 具备名为“计算机使用”的开创性功能,允许其理解图像、移动光标、点击和输入文本,像人类一样与计算机交互。作者测试了该模型在互联网搜索、创建电子表格、根据天气查找餐厅等真实场景下的应用。结果表明,Sonnet 3.5 能成功执行简单任务,但在处理涉及关键信息的任务时会拒绝操作。虽然该模型在计算机交互方面表现出色,但其高昂的成本和较慢的速度限制了实际应用。
19