MathArena:数学コンペティションにおけるLLMの厳格な評価プラットフォーム

2025-04-02

MathArenaは、最新の数学コンペティションとオリンピックにおける大規模言語モデル(LLM)の性能を評価するためのプラットフォームです。リリース後のコンペティションでのみモデルをテストすることで、公平で偏りのない評価を保証し、潜在的に漏洩したデータの事後的な評価を回避します。各コンペティションのリーダーボードを公開し、異なるモデルの個々の問題のスコアと、全コンペティションの性能をまとめたメインテーブルを提供します。各問題は各モデルで4回実行され、平均スコアとモデルコスト(USD)が計算されます。評価コードはオープンソースです:https://github.com/eth-sri/matharena。