Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

MathArena：数学コンペティションにおけるLLMの厳格な評価プラットフォーム

2025-04-02

MathArenaは、最新の数学コンペティションとオリンピックにおける大規模言語モデル（LLM）の性能を評価するためのプラットフォームです。リリース後のコンペティションでのみモデルをテストすることで、公平で偏りのない評価を保証し、潜在的に漏洩したデータの事後的な評価を回避します。各コンペティションのリーダーボードを公開し、異なるモデルの個々の問題のスコアと、全コンペティションの性能をまとめたメインテーブルを提供します。各問題は各モデルで4回実行され、平均スコアとモデルコスト（USD）が計算されます。評価コードはオープンソースです：https://github.com/eth-sri/matharena。

(matharena.ai)

AI 数学コンペティション