R1-Zero de DeepSeek : Une voie vers l'AGI sans annotation humaine ?

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-01-29

DeepSeek a publié les systèmes de raisonnement R1-Zero et R1, obtenant des scores comparables à ceux du système o1 d'OpenAI (15-20%) sur le benchmark ARC-AGI-1, surpassant largement les 5% du GPT-4o, qui repose uniquement sur l'échelle des LLMs. R1-Zero est particulièrement remarquable par sa dépendance exclusive à l'apprentissage par renforcement, éliminant le besoin d'un réglage fin supervisé (SFT). Bien que R1-Zero présente quelques défis en termes de lisibilité et de mélange de langues, ses solides performances en mathématiques et en codage démontrent un raisonnement précis en chaîne de pensées sans SFT. Cela ouvre de nouvelles voies dans la recherche sur l'AGI, suggérant un avenir où l'entraînement de l'AGI pourrait se passer complètement de l'annotation humaine.