Epoch AI 推出了 FrontierMath,这是一个包含数百道专家级原创数学题的基准测试,旨在评估人工智能系统的高级推理能力。这些问题涵盖了现代数学的主要分支,从计算数论到抽象代数几何,通常需要专家数学家花费数小时或数天才能解决。目前,即使是最先进的AI模型,在FrontierMath上的解题率也不足2%,这与它们在GSM-8K和MATH等其他数学基准测试中超过90%的准确率形成鲜明对比,凸显了当前AI能力与数学家水平之间的巨大差距。FrontierMath的后续工作包括定期评估、扩展题库、公开发布更多问题以及加强质量控制。