大規模言語モデル、IMO 2025で期待外れ:メダルレベルのパフォーマンスは依然として困難

2025-07-19

研究者らは、MathArenaプラットフォームを用いて、5つの最先端の大規模言語モデル(LLM)を2025年国際数学オリンピック(IMO)の問題で評価しました。Gemini 2.5 Proが最高のパフォーマンスを示しましたが、スコアはわずか31%(13点)で、銅メダルに必要な19点には遠く及びませんでした。他のモデルはさらに大きく後れを取っています。ベストオブ32の選抜戦略により、問題ごとに複数の回答が生成・評価され、計算コストが大幅に増加しました。それにもかかわらず、結果は、現在のLLMと、IMOのような非常に難しい数学の問題におけるメダルレベルのパフォーマンスとの間に大きなギャップがあることを示しており、相当な計算リソースを投入してもメダルレベルに到達することはできませんでした。定性的な分析では、存在しない定理を引用したり、非常に簡潔な回答をしたりするなどの問題が明らかになりました。

続きを読む

MathArena:数学コンペティションにおけるLLMの厳格な評価プラットフォーム

2025-04-02

MathArenaは、最新の数学コンペティションとオリンピックにおける大規模言語モデル(LLM)の性能を評価するためのプラットフォームです。リリース後のコンペティションでのみモデルをテストすることで、公平で偏りのない評価を保証し、潜在的に漏洩したデータの事後的な評価を回避します。各コンペティションのリーダーボードを公開し、異なるモデルの個々の問題のスコアと、全コンペティションの性能をまとめたメインテーブルを提供します。各問題は各モデルで4回実行され、平均スコアとモデルコスト(USD)が計算されます。評価コードはオープンソースです:https://github.com/eth-sri/matharena。

続きを読む