MathArena:对大型语言模型数学能力的严格评估平台

2025-04-02

MathArena是一个评估大型语言模型(LLM)在最新数学竞赛和奥林匹克竞赛中表现的平台。它通过在模型发布后进行的竞赛中测试模型,避免了对可能泄露或预训练材料的追溯评估,确保评估的公平性和完整性。平台公布每个竞赛的排行榜,显示不同模型在各个问题上的得分,并提供一个主表,包含模型在所有竞赛中的表现。每个问题运行每个模型4次,计算平均得分和模型成本(美元)。其评估代码已开源:https://github.com/eth-sri/matharena。

AI