MathArena：对大型语言模型数学能力的严格评估平台

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

MathArena：对大型语言模型数学能力的严格评估平台

2025-04-02

MathArena是一个评估大型语言模型（LLM）在最新数学竞赛和奥林匹克竞赛中表现的平台。它通过在模型发布后进行的竞赛中测试模型，避免了对可能泄露或预训练材料的追溯评估，确保评估的公平性和完整性。平台公布每个竞赛的排行榜，显示不同模型在各个问题上的得分，并提供一个主表，包含模型在所有竞赛中的表现。每个问题运行每个模型4次，计算平均得分和模型成本（美元）。其评估代码已开源：https://github.com/eth-sri/matharena。

(matharena.ai)

退伍军人编程：改变人生轨迹的非营利组织

Automattic进行大规模裁员：16%员工被解雇