Le moment GPT-3 du RL : L'essor de l'entraînement par réplication

2025-07-13
Le moment GPT-3 du RL : L'essor de l'entraînement par réplication

Cet article prédit un prochain « moment GPT-3 » pour l'apprentissage par renforcement (RL), impliquant un entraînement à grande échelle sur des milliers d'environnements divers pour obtenir de solides capacités peu nombreuses et agnostiques aux tâches. Cela nécessite une échelle et une diversité sans précédent dans les environnements d'entraînement, potentiellement équivalentes à des dizaines de milliers d'années de « temps de tâche orienté modèle ». Les auteurs proposent un nouveau paradigme, « l'entraînement par réplication », où les IA dupliquent des produits logiciels existants ou des fonctionnalités pour créer des tâches d'entraînement à grande échelle et automatiquement évaluables. Bien que des défis existent, cette approche offre une voie claire pour mettre à l'échelle le RL, permettant potentiellement aux IA de réaliser des projets logiciels complets de manière autonome.