Apprentissage par renforcement : moteur de la montée en puissance de l’IA agentive en 2025
Les premières tentatives d’agents IA comme BabyAGI et AutoGPT en 2023, bien que largement médiatisées, ont échoué en raison des difficultés des grands modèles de langage (LLM) à gérer le raisonnement en plusieurs étapes. Cependant, mi-2024, la situation a changé. Les progrès de l’apprentissage par renforcement ont permis une nouvelle génération d’agents IA capables de réaliser de manière cohérente des tâches complexes à plusieurs étapes, illustrées par des outils de génération de code comme Bolt.new et Claude 3.5 Sonnet d’Anthropic. L’apprentissage par renforcement, grâce à une formation par essais et erreurs, surmonte le problème des erreurs cumulatives inhérent à l’apprentissage par imitation, permettant aux modèles de rester robustes même avec des données non vues. Des techniques comme RLHF d’OpenAI et IA constitutionnelle d’Anthropic automatisent le feedback, améliorant encore l’efficacité de l’apprentissage par renforcement. Le modèle R1 de DeepSeek a montré le potentiel remarquable des modèles qui « s’auto-apprennent » le raisonnement grâce à l’apprentissage par renforcement. En bref, les progrès de l’apprentissage par renforcement sont le principal moteur de l’essor de l’IA agentive en 2025.
Lire plus