Apprentissage par renforcement : moteur de la montée en puissance de l’IA agentive en 2025

2025-06-28
Apprentissage par renforcement : moteur de la montée en puissance de l’IA agentive en 2025

Les premières tentatives d’agents IA comme BabyAGI et AutoGPT en 2023, bien que largement médiatisées, ont échoué en raison des difficultés des grands modèles de langage (LLM) à gérer le raisonnement en plusieurs étapes. Cependant, mi-2024, la situation a changé. Les progrès de l’apprentissage par renforcement ont permis une nouvelle génération d’agents IA capables de réaliser de manière cohérente des tâches complexes à plusieurs étapes, illustrées par des outils de génération de code comme Bolt.new et Claude 3.5 Sonnet d’Anthropic. L’apprentissage par renforcement, grâce à une formation par essais et erreurs, surmonte le problème des erreurs cumulatives inhérent à l’apprentissage par imitation, permettant aux modèles de rester robustes même avec des données non vues. Des techniques comme RLHF d’OpenAI et IA constitutionnelle d’Anthropic automatisent le feedback, améliorant encore l’efficacité de l’apprentissage par renforcement. Le modèle R1 de DeepSeek a montré le potentiel remarquable des modèles qui « s’auto-apprennent » le raisonnement grâce à l’apprentissage par renforcement. En bref, les progrès de l’apprentissage par renforcement sont le principal moteur de l’essor de l’IA agentive en 2025.

Lire plus
IA

Le modèle Llama 3.1 de Meta mémorise des parties importantes d'ouvrages protégés par le droit d'auteur

2025-06-15
Le modèle Llama 3.1 de Meta mémorise des parties importantes d'ouvrages protégés par le droit d'auteur

Une nouvelle recherche révèle que le grand modèle de langage Llama 3.1 70B de Meta a mémorisé de manière surprenante des parties importantes d'ouvrages protégés par le droit d'auteur, mémorisant 42 % de Harry Potter à l'école des sorciers. C'est significativement plus que son prédécesseur, Llama 1 65B, ce qui soulève de sérieuses inquiétudes concernant les droits d'auteur. Les chercheurs ont évalué efficacement la « mémorisation » du modèle en calculant la probabilité de générer des séquences de texte spécifiques, plutôt que de générer un grand volume de texte. Cette découverte pourrait avoir un impact significatif sur les litiges concernant les droits d'auteur contre Meta et pourrait inciter les tribunaux à reconsidérer les limites de l'utilisation équitable dans l'entraînement des modèles d'IA. Bien que le modèle ait mémorisé moins d'ouvrages obscurs, la mémorisation excessive d'ouvrages populaires souligne les défis des grands modèles de langage concernant les questions de droits d'auteur.

Lire plus

Le battage médiatique autour de l'IA dans la science : la désillusion d'un physicien

2025-05-20
Le battage médiatique autour de l'IA dans la science : la désillusion d'un physicien

Nick McGreivy, un physicien titulaire d'un doctorat de Princeton, partage son expérience en appliquant l'IA à la recherche en physique. Initialement optimiste quant au potentiel de l'IA à accélérer la recherche, il a constaté que les méthodes d'IA étaient bien moins performantes que ce qui avait été annoncé. De nombreux articles ont exagéré les avantages de l'IA, avec des problèmes tels que la fuite de données étant fréquents. Il soutient que la croissance rapide de l'IA dans la science découle davantage des avantages pour les scientifiques (salaires plus élevés, prestige) que des améliorations réelles de l'efficacité de la recherche. Il appelle à des méthodes d'évaluation de l'IA plus rigoureuses et met en garde contre les biais optimistes dans la recherche sur l'IA.

Lire plus

Analyse des accidents de véhicules autonomes Waymo : les humains sont-ils les vrais coupables ?

2025-03-26
Analyse des accidents de véhicules autonomes Waymo : les humains sont-ils les vrais coupables ?

Cet article analyse 38 accidents graves impliquant des véhicules autonomes Waymo entre juillet 2024 et février 2025. Étonnamment, la grande majorité de ces accidents n'ont pas été causés par les véhicules Waymo eux-mêmes, mais par d'autres véhicules conduisant de manière imprudente, comme la vitesse excessive et le non-respect des feux rouges. Les données de Waymo montrent que ses véhicules autonomes ont un taux d'accidents beaucoup plus faible que les conducteurs humains. Même si tous les accidents étaient imputés à Waymo, son bilan de sécurité serait toujours nettement meilleur que celui des conducteurs humains. Par rapport à la conduite humaine, Waymo a fait des progrès significatifs dans la réduction des accidents, notamment ceux entraînant des blessures.

Lire plus
IA