人類最後の試験：画期的なAIベンチマーク

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-01-23

Scale AIと人工知能安全センター（CAIS）は、「人類最後の試験」の結果を発表しました。これは、AIの知識の限界を押し上げることを目的とした新しいベンチマークです。様々な分野にわたる3000以上の専門家レベルの質問からなるこの試験では、GPT-4、Claude 3.5、Gemini 1.5などの最先端のAIモデルでさえ、質問の10％未満しか正しく回答できなかったことが明らかになりました。これは、複雑な推論能力における大きなギャップを浮き彫りにしています。このベンチマークは、「ベンチマーク飽和」の問題、つまり既存のテストでは優れた結果を出すが、新しい問題には苦労するモデルの問題に取り組んでいます。このデータセットは、AIの研究開発を推進し、AIの現状と将来の方向性に関する貴重な洞察を提供するために、公開されます。