Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

Putnam-AXIOM：LLMの数学的推論能力を試す新たなベンチマーク

2025-01-01

研究者らは、ウィリアム・ローウェル・プットナム数学競技から236問の問題を集めた、挑戦的なベンチマークであるPutnam-AXIOMを発表しました。これは、大規模言語モデル（LLM）の高レベルな数学的推論能力を評価するために設計されています。データ汚染を軽減するため、52問の問題のバリエーションを含むベンチマークも作成されました。結果は、最高性能のモデルでさえ、オリジナルの問題と比較してバリエーションの問題における精度が約30％低下することを示しており、LLMの数学的推論能力には大幅な改善の余地があることを浮き彫りにしています。

(openreview.net)

AI 数学的推論