人类最后一次考试:AI能力的极限测试

2025-01-23
人类最后一次考试:AI能力的极限测试

Scale AI和人工智能安全中心(CAIS)发布了“人类最后一次考试”的成果,这是一个旨在测试AI在人类专业知识前沿的知识极限的突破性基准测试。测试涵盖数学、人文和自然科学等多个领域,结果显示,目前的AI模型只能正确回答不到10%的专家级问题,这表明AI在复杂推理方面仍有很大的提升空间。该测试使用了超过3000个由专家提供的难题,并对多个领先的AI模型进行了评估,旨在解决现有基准测试饱和的问题。这项研究为未来的AI发展提供了宝贵的参考,并强调了AI安全的重要性。

阅读更多
AI