OpenAI FrontierMath 事件:AI 基准测试的透明性危机
2025-01-21
OpenAI 的新模型 o3 在 FrontierMath 数学基准测试中取得了令人瞩目的成绩,但其背后的故事却引发了争议。Epoch AI 创建的 FrontierMath 测试集,资金来源于 OpenAI,且 OpenAI 拥有大部分难题的独家访问权,这使得 o3 的成绩缺乏透明度,并引发了关于 AI 基准测试透明性和安全性的担忧。一些人认为,即使 OpenAI 没有直接使用该数据集训练模型,拥有独家访问权也可能为模型性能提升提供了间接优势。这起事件凸显了未来 AI 基准测试中透明化、明确数据使用协议的重要性,以及对 AI 安全研究的影响。
AI
AI基准测试