AI代理评估基准测试的可靠性危机

2025-07-11
AI代理评估基准测试的可靠性危机

当前AI代理评估基准测试存在严重可靠性问题。许多基准测试存在漏洞,导致对代理能力的严重高估或低估。例如,WebArena将错误答案标记为正确,而其他基准测试则因模拟器缺陷或缺乏可靠的评估方法而存在问题。研究人员提出了一份43项的AI代理基准测试清单(ABC),用于改进基准测试的可靠性,并对10个流行的基准测试进行了评估,发现其中大部分存在严重问题。该清单旨在帮助基准测试开发者和AI模型开发者构建更可靠的评估方法,从而更准确地评估AI代理的能力。

阅读更多
AI