Putnam-AXIOM:LLMの数学的推論能力を試す新たなベンチマーク
2025-01-01
研究者らは、ウィリアム・ローウェル・プットナム数学競技から236問の問題を集めた、挑戦的なベンチマークであるPutnam-AXIOMを発表しました。これは、大規模言語モデル(LLM)の高レベルな数学的推論能力を評価するために設計されています。データ汚染を軽減するため、52問の問題のバリエーションを含むベンチマークも作成されました。結果は、最高性能のモデルでさえ、オリジナルの問題と比較してバリエーションの問題における精度が約30%低下することを示しており、LLMの数学的推論能力には大幅な改善の余地があることを浮き彫りにしています。
続きを読む
AI
数学的推論