大規模言語モデル、IMO 2025で期待外れ:メダルレベルのパフォーマンスは依然として困難
2025-07-19
研究者らは、MathArenaプラットフォームを用いて、5つの最先端の大規模言語モデル(LLM)を2025年国際数学オリンピック(IMO)の問題で評価しました。Gemini 2.5 Proが最高のパフォーマンスを示しましたが、スコアはわずか31%(13点)で、銅メダルに必要な19点には遠く及びませんでした。他のモデルはさらに大きく後れを取っています。ベストオブ32の選抜戦略により、問題ごとに複数の回答が生成・評価され、計算コストが大幅に増加しました。それにもかかわらず、結果は、現在のLLMと、IMOのような非常に難しい数学の問題におけるメダルレベルのパフォーマンスとの間に大きなギャップがあることを示しており、相当な計算リソースを投入してもメダルレベルに到達することはできませんでした。定性的な分析では、存在しない定理を引用したり、非常に簡潔な回答をしたりするなどの問題が明らかになりました。
AI
国際数学オリンピック