ARC-AGI-2: 인간에게는 쉽고 AI에게는 어려운 AGI 벤치마크

2025-03-24
ARC-AGI-2: 인간에게는 쉽고 AI에게는 어려운 AGI 벤치마크

ARC Prize 2025 경진대회가 AI에게는 훨씬 어렵지만 인간에게는 비교적 쉬운 AGI 벤치마크인 ARC-AGI-2와 함께 돌아왔습니다. 인간에게는 쉽지만 AI에게는 어려운 작업에 초점을 맞춤으로써 단순한 확장만으로는 해결할 수 없는 능력 격차를 보여줍니다. 100만 달러의 상금 풀을 통해 효율적이고 범용적인 AI 시스템을 위한 오픈소스 혁신을 장려하여 인간과 AI 간의 격차를 해소하고 진정한 AGI를 달성하는 것을 목표로 합니다.

더 보기
AI

DeepSeek의 R1-Zero: 사람의 개입 없이 AGI로 가는 길?

2025-01-29
DeepSeek의 R1-Zero: 사람의 개입 없이 AGI로 가는 길?

DeepSeek은 추론 시스템 R1-Zero와 R1을 발표했습니다. ARC-AGI-1 벤치마크에서 OpenAI의 o1 시스템과 비슷한 점수(15~20%)를 달성하여, 단순 LLM 확장에 의존하는 GPT-4o의 5%를 크게 능가했습니다. R1-Zero는 특히 주목할 만하며, 지도 학습 파인튜닝(SFT) 없이 강화 학습에만 의존합니다. R1-Zero는 가독성 및 언어 혼합에 어려움을 겪지만, 수학 및 코딩 분야에서 뛰어난 성능을 보이며 SFT 없이도 정확한 사고 연쇄 추론이 가능함을 입증했습니다. 이는 AGI 연구에 새로운 길을 열어주며, 미래에는 사람의 개입 없이 AGI를 훈련할 수 있는 가능성을 시사합니다.

더 보기

OpenAI의 o3 시스템, ARC-AGI 벤치마크에서 획기적인 점수 달성

2024-12-20
OpenAI의 o3 시스템, ARC-AGI 벤치마크에서 획기적인 점수 달성

OpenAI의 새로운 o3 시스템은 ARC-AGI-1 공개 훈련 세트로 훈련되었으며, 준비공개 평가 세트에서 75.7%라는 획기적인 점수를 달성했습니다. 이는 대규모 언어 모델의 이전 한계를 뛰어넘는 것이며, AI 성능의 비약적인 향상을 보여줍니다. GPT 계열에서는 전례 없던 새로운 작업에 대한 적응력을 입증했습니다. 진정한 범용 인공지능(AGI)에는 이르지 못했지만, o3의 성공은 테스트 시점의 지식 재결합의 중요성을 강조하고, 지속적인 AGI 연구를 위한 귀중한 데이터 포인트를 제공합니다. o3는 여전히 일부 간단한 작업에서 실패하고 있으며, 진정한 AGI 달성의 복잡성을 보여줍니다.

더 보기
AI