ARC-AGI-2: Der AGI-Benchmark – einfacher für Menschen, schwerer für KI

2025-03-24
ARC-AGI-2: Der AGI-Benchmark – einfacher für Menschen, schwerer für KI

Der ARC Prize 2025 Wettbewerb kehrt zurück mit ARC-AGI-2, einem deutlich schwierigeren AGI-Benchmark für KI, der für Menschen aber relativ einfach bleibt. Der Fokus liegt auf Aufgaben, die für Menschen einfach, für KI jedoch schwer oder unmöglich sind. Dies soll Fähigkeitslücken aufzeigen, die nicht allein durch Skalierung behoben werden können. Mit einem Preisgeld von 1 Million Dollar fördert der Wettbewerb Open-Source-Innovationen für effiziente und allgemeine KI-Systeme mit dem Ziel, die Lücke zwischen Mensch und KI zu schließen und echte AGI zu erreichen.

Mehr lesen
KI

DeepSeks R1-Zero: Ein Weg zu AGI ohne menschliche Annotation?

2025-01-29
DeepSeks R1-Zero: Ein Weg zu AGI ohne menschliche Annotation?

DeepSeek hat die Reasoningsysteme R1-Zero und R1 veröffentlicht, die am ARC-AGI-1-Benchmark vergleichbare Ergebnisse wie OpenAIs o1 (15-20%) erzielt haben und damit die 5% von GPT-4o, das nur auf der Skalierung von LLMs basiert, deutlich übertreffen. R1-Zero ist besonders bemerkenswert, da es ausschließlich auf Reinforcement Learning basiert und somit auf Supervised Fine-Tuning (SFT) verzichtet. Obwohl R1-Zero einige Herausforderungen in Bezug auf Lesbarkeit und Sprachmischung aufweist, zeigt es in Mathematik und Codierung eine starke Leistung und demonstriert präzises Chain-of-Thought-Reasoning ohne SFT. Dies eröffnet neue Wege in der AGI-Forschung und deutet auf eine Zukunft hin, in der das AGI-Training vollständig ohne menschliche Annotation auskommt.

Mehr lesen
KI

OpenAIs o3-System erzielt Durchbruchsergebnis beim ARC-AGI-Benchmark

2024-12-20
OpenAIs o3-System erzielt Durchbruchsergebnis beim ARC-AGI-Benchmark

OpenAIs neues o3-System, trainiert auf dem öffentlichen ARC-AGI-1-Trainingsdatensatz, erzielte eine bahnbrechende Punktzahl von 75,7 % auf dem semi-privaten Evaluationsdatensatz und übertraf damit die bisherigen Grenzen großer Sprachmodelle. Dies stellt einen bedeutenden Fortschritt in den Fähigkeiten der KI dar und zeigt eine neuartige Fähigkeit zur Anpassung an neue Aufgaben, die zuvor bei Modellen der GPT-Familie nicht beobachtet wurde. Obwohl o3 noch keine Künstliche Allgemeine Intelligenz (AGI) erreicht hat, unterstreicht sein Erfolg die Bedeutung der Neukombination von Wissen zur Testzeit und liefert wertvolle Datenpunkte für die laufende AGI-Forschung. Es bleiben Herausforderungen bestehen, da o3 immer noch bei einigen einfachen Aufgaben scheitert, was die Komplexität der Erreichung echter AGI verdeutlicht.

Mehr lesen
KI