大規模言語モデル、IMO 2025で期待外れ：メダルレベルのパフォーマンスは依然として困難

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-07-19

研究者らは、MathArenaプラットフォームを用いて、5つの最先端の大規模言語モデル（LLM）を2025年国際数学オリンピック（IMO）の問題で評価しました。Gemini 2.5 Proが最高のパフォーマンスを示しましたが、スコアはわずか31％（13点）で、銅メダルに必要な19点には遠く及びませんでした。他のモデルはさらに大きく後れを取っています。ベストオブ32の選抜戦略により、問題ごとに複数の回答が生成・評価され、計算コストが大幅に増加しました。それにもかかわらず、結果は、現在のLLMと、IMOのような非常に難しい数学の問題におけるメダルレベルのパフォーマンスとの間に大きなギャップがあることを示しており、相当な計算リソースを投入してもメダルレベルに到達することはできませんでした。定性的な分析では、存在しない定理を引用したり、非常に簡潔な回答をしたりするなどの問題が明らかになりました。