ARC-AGI-2:人間にとって簡単、AIにとって難しいAGIベンチマーク

2025-03-24
ARC-AGI-2:人間にとって簡単、AIにとって難しいAGIベンチマーク

ARC Prize 2025コンテストがARC-AGI-2という大幅に難しいAGIベンチマークと共に帰ってきました。AIにとっては非常に難しい一方、人間にとっては比較的容易です。人間にとって簡単だがAIにとっては困難なタスクに焦点を当てることで、単なるスケールアップでは解決できない能力のギャップを浮き彫りにします。100万ドルの賞金プールにより、効率的で汎用的なAIシステムに向けたオープンソースのイノベーションを促進し、人間とAIのギャップを埋めて真のAGIを実現することを目指します。

続きを読む
AI

DeepSeekのR1-Zero:人間の介入なしでAGIへ?

2025-01-29
DeepSeekのR1-Zero:人間の介入なしでAGIへ?

DeepSeekは、推論システムR1-ZeroとR1を発表しました。ARC-AGI-1ベンチマークで、OpenAIのo1システムと同等のスコア(15~20%)を達成し、LLMの単純なスケーリングに依存するGPT-4oの5%を大幅に上回りました。R1-Zeroは特に注目に値し、教師ありファインチューニング(SFT)を必要とせず、強化学習のみに依存しています。R1-Zeroは可読性や言語の混在に課題を抱えているものの、数学やコーディング分野では優れた性能を示し、SFTなしで正確な思考連鎖推論が可能であることを実証しました。これはAGI研究に新たな道を切り開き、将来的には人間の注釈なしでAGIを訓練できる可能性を示唆しています。

続きを読む
AI

OpenAIのo3システム、ARC-AGIベンチマークで画期的なスコア達成

2024-12-20
OpenAIのo3システム、ARC-AGIベンチマークで画期的なスコア達成

OpenAIの新しいo3システムは、ARC-AGI-1公開トレーニングセットでトレーニングされ、セミプライベート評価セットで75.7%という画期的なスコアを達成しました。これは、大規模言語モデルの以前の限界を超えるものであり、AI能力の飛躍的な向上を示しています。GPTファミリーではこれまで見られなかった新しいタスクへの適応能力を実証しました。真の汎用人工知能(AGI)には至っていませんが、o3の成功は、テスト時の知識の再結合の重要性を強調し、継続的なAGI研究のための貴重なデータポイントを提供します。o3は依然として一部の簡単なタスクで失敗しており、真のAGI達成の複雑さを示しています。

続きを読む
AI