ARC-AGI-2 : Le benchmark AGI plus facile pour les humains, plus difficile pour l'IA

2025-03-24
ARC-AGI-2 : Le benchmark AGI plus facile pour les humains, plus difficile pour l'IA

Le concours ARC Prize 2025 revient avec ARC-AGI-2, un benchmark AGI significativement plus difficile pour l'IA tout en restant relativement facile pour les humains. En se concentrant sur des tâches faciles pour les humains mais difficiles pour l'IA, ARC-AGI-2 met en lumière les lacunes de capacité qui ne sont pas comblées par une simple mise à l'échelle des modèles existants. Avec un prix de 1 million de dollars, le concours encourage l'innovation open source pour des systèmes d'IA efficaces et généraux, dans le but de combler le fossé entre les humains et l'IA et d'atteindre la véritable AGI.

Lire plus
IA

R1-Zero de DeepSeek : Une voie vers l'AGI sans annotation humaine ?

2025-01-29
R1-Zero de DeepSeek : Une voie vers l'AGI sans annotation humaine ?

DeepSeek a publié les systèmes de raisonnement R1-Zero et R1, obtenant des scores comparables à ceux du système o1 d'OpenAI (15-20%) sur le benchmark ARC-AGI-1, surpassant largement les 5% du GPT-4o, qui repose uniquement sur l'échelle des LLMs. R1-Zero est particulièrement remarquable par sa dépendance exclusive à l'apprentissage par renforcement, éliminant le besoin d'un réglage fin supervisé (SFT). Bien que R1-Zero présente quelques défis en termes de lisibilité et de mélange de langues, ses solides performances en mathématiques et en codage démontrent un raisonnement précis en chaîne de pensées sans SFT. Cela ouvre de nouvelles voies dans la recherche sur l'AGI, suggérant un avenir où l'entraînement de l'AGI pourrait se passer complètement de l'annotation humaine.

Lire plus

Le système o3 d'OpenAI atteint un score révolutionnaire sur le benchmark ARC-AGI

2024-12-20
Le système o3 d'OpenAI atteint un score révolutionnaire sur le benchmark ARC-AGI

Le nouveau système o3 d'OpenAI, entraîné sur l'ensemble de données d'entraînement public ARC-AGI-1, a obtenu un score révolutionnaire de 75,7 % sur l'ensemble d'évaluation semi-privé, dépassant les limites précédentes des grands modèles de langage. Ceci représente un bond significatif dans les capacités de l'IA, démontrant une capacité d'adaptation à de nouvelles tâches jamais vue auparavant dans la famille GPT. Bien qu'il n'atteigne pas encore l'Intelligence Artificielle Générale (AGI), le succès d'o3 souligne l'importance de la recombinaison des connaissances en temps de test et fournit des données précieuses pour la recherche continue sur l'AGI. Des défis persistent, car o3 échoue encore sur certaines tâches simples, soulignant les complexités de l'atteinte de la véritable AGI.

Lire plus
IA