ARC-AGI-2:比人类更容易,比AI更难的AGI基准测试

2025-03-24
ARC-AGI-2:比人类更容易,比AI更难的AGI基准测试

ARC Prize 2025 竞赛回归,推出更难的 AGI 基准测试 ARC-AGI-2。与前代相比,ARC-AGI-2 对于 AI 来说更具挑战性,但对人类来说仍然相对容易。该基准测试专注于对人类来说简单但对 AI 来说困难的任务,旨在揭示单纯“规模化”无法解决的智力差距。本次竞赛提供百万美元奖金,鼓励开源创新,推动高效、通用的 AI 系统发展,最终目标是缩小人类和 AI 之间的差距,实现真正的 AGI。

阅读更多
AI

DeepSeek的R1-Zero:无需人工标注的AGI新路径?

2025-01-29
DeepSeek的R1-Zero:无需人工标注的AGI新路径?

DeepSeek发布了R1-Zero和R1两个推理系统,在ARC-AGI-1基准测试中取得了与OpenAI的o1系统相当的成绩(15-20%),远超仅依靠LLM规模化训练的GPT-4o(5%)。R1-Zero尤其引人注目,因为它完全依赖强化学习,无需人工标注(SFT),这突破了以往依赖大量人工标注的瓶颈。虽然R1-Zero在可读性和语言混杂性方面存在一些挑战,但在数学和编码领域表现出色,表明在特定领域,无需SFT也能实现准确的链式思维推理。这为AGI研究开辟了新的方向,预示着未来可能出现完全摆脱人工标注的AGI训练模式。

阅读更多
AI

OpenAI 的 o3 系统在 ARC-AGI 基准测试中取得突破性进展

2024-12-20
OpenAI 的 o3 系统在 ARC-AGI 基准测试中取得突破性进展

OpenAI 的新型 o3 系统在 ARC-AGI-1 公开训练集上进行训练,在半私有评估集上取得了 75.7% 的突破性高分,这标志着人工智能能力的显著提升。该系统展现出前所未有的新任务适应能力,挑战了现有大型语言模型的局限性。虽然 o3 系统在一些简单任务上仍然失败,距离通用人工智能(AGI)还有距离,但这项成果为 AGI 的研究提供了宝贵的数据点,也突显了在测试时重新组合知识的重要性。

阅读更多
AI

2024 ARC 奖结果公布,大奖仍无人获得

2024-12-07
2024 ARC 奖结果公布,大奖仍无人获得

2024 ARC 奖竞赛结果公布,大奖仍然无人获得。竞赛发布了官方技术报告,详细介绍了排名靠前的解决方案、技术分析、趋势和重要见解。ARChitects 团队以 53.5% 的得分获得第一名,赢得 2.5 万美元奖金。竞赛还公布了论文奖获奖者,一等奖由“结合归纳和转导进行抽象推理”的论文获得,奖金 5 万美元。2025 年 ARC 奖将继续举办,并计划推出 ARC-AGI-2 基准测试。

阅读更多
未分类

ARC Prize 挑战赛:百万美元奖金,寻求通用人工智能新突破

2024-06-11
ARC Prize 挑战赛:百万美元奖金,寻求通用人工智能新突破

由于人工智能,特别是大型语言模型(LLM)的进展局限于记忆和应用模式,真正的通用人工智能(AGI)需要具备像人类一样高效学习新技能的能力。ARC-AGI 评估测试表明,当前 AI 系统远未达到人类水平。ARC Prize 挑战赛应运而生,旨在鼓励开源研究,推动 AGI 发展。该竞赛由 Mike Knoop 和 François Chollet 主办,Infinite Monkey 和 Lab42 支持,提供超过 100 万美元的奖金,鼓励参赛者解决 ARC-AGI 评估,并开源其解决方案。

阅读更多
未分类 ARC Prize