搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

Cradle:赋能基础模型实现通用计算机控制 (baai-agents.github.io)

本文介绍了Cradle,这是一个模块化且灵活的、由大语言模型驱动的框架,旨在赋予基础模型通过屏幕截图作为输入、键盘和鼠标操作作为输出的通用界面来执行复杂计算机任务。Cradle包含六个关键模块:信息收集、自我反思、任务推断、技能整理、行动计划和记忆,能够理解输入的屏幕截图并输出可执行代码,从而在无需依赖任何内置API的情况下与任何软件进行交互并完成长期复杂的任务。实验结果表明,Cradle在四款以前未开发的商业游戏、五款软件应用和一个综合基准测试OSWorld中表现出卓越的通用性和性能。

评论已经关闭!