本文介绍了Cradle,这是一个模块化且灵活的、由大语言模型驱动的框架,旨在赋予基础模型通过屏幕截图作为输入、键盘和鼠标操作作为输出的通用界面来执行复杂计算机任务。Cradle包含六个关键模块:信息收集、自我反思、任务推断、技能整理、行动计划和记忆,能够理解输入的屏幕截图并输出可执行代码,从而在无需依赖任何内置API的情况下与任何软件进行交互并完成长期复杂的任务。实验结果表明,Cradle在四款以前未开发的商业游戏、五款软件应用和一个综合基准测试OSWorld中表现出卓越的通用性和性能。