人類最後の試験:画期的なAIベンチマーク

2025-01-23
人類最後の試験:画期的なAIベンチマーク

Scale AIと人工知能安全センター(CAIS)は、「人類最後の試験」の結果を発表しました。これは、AIの知識の限界を押し上げることを目的とした新しいベンチマークです。様々な分野にわたる3000以上の専門家レベルの質問からなるこの試験では、GPT-4、Claude 3.5、Gemini 1.5などの最先端のAIモデルでさえ、質問の10%未満しか正しく回答できなかったことが明らかになりました。これは、複雑な推論能力における大きなギャップを浮き彫りにしています。このベンチマークは、「ベンチマーク飽和」の問題、つまり既存のテストでは優れた結果を出すが、新しい問題には苦労するモデルの問題に取り組んでいます。このデータセットは、AIの研究開発を推進し、AIの現状と将来の方向性に関する貴重な洞察を提供するために、公開されます。

AI