这篇论文探讨了人工智能代理(AI agents)的现状,分析了其定义、发展前景、面临的挑战以及评估方法。作者认为,虽然 AI 代理的概念被炒作,但其发展潜力巨大,尤其是在提高可靠性和成本控制方面。论文重点讨论了 AI 代理评估中存在的缺陷,并提出了五项建议:实施成本控制评估、联合优化准确性和成本、区分模型和下游基准测试、防止代理基准测试中的捷径以及提高代理基准测试的标准化和可重复性。