DeepSeks R1-Zero: Ein Weg zu AGI ohne menschliche Annotation?

2025-01-29
DeepSeks R1-Zero: Ein Weg zu AGI ohne menschliche Annotation?

DeepSeek hat die Reasoningsysteme R1-Zero und R1 veröffentlicht, die am ARC-AGI-1-Benchmark vergleichbare Ergebnisse wie OpenAIs o1 (15-20%) erzielt haben und damit die 5% von GPT-4o, das nur auf der Skalierung von LLMs basiert, deutlich übertreffen. R1-Zero ist besonders bemerkenswert, da es ausschließlich auf Reinforcement Learning basiert und somit auf Supervised Fine-Tuning (SFT) verzichtet. Obwohl R1-Zero einige Herausforderungen in Bezug auf Lesbarkeit und Sprachmischung aufweist, zeigt es in Mathematik und Codierung eine starke Leistung und demonstriert präzises Chain-of-Thought-Reasoning ohne SFT. Dies eröffnet neue Wege in der AGI-Forschung und deutet auf eine Zukunft hin, in der das AGI-Training vollständig ohne menschliche Annotation auskommt.

KI