Le modèle Llama 3.1 de Meta mémorise des parties importantes d'ouvrages protégés par le droit d'auteur
Une nouvelle recherche révèle que le grand modèle de langage Llama 3.1 70B de Meta a mémorisé de manière surprenante des parties importantes d'ouvrages protégés par le droit d'auteur, mémorisant 42 % de Harry Potter à l'école des sorciers. C'est significativement plus que son prédécesseur, Llama 1 65B, ce qui soulève de sérieuses inquiétudes concernant les droits d'auteur. Les chercheurs ont évalué efficacement la « mémorisation » du modèle en calculant la probabilité de générer des séquences de texte spécifiques, plutôt que de générer un grand volume de texte. Cette découverte pourrait avoir un impact significatif sur les litiges concernant les droits d'auteur contre Meta et pourrait inciter les tribunaux à reconsidérer les limites de l'utilisation équitable dans l'entraînement des modèles d'IA. Bien que le modèle ait mémorisé moins d'ouvrages obscurs, la mémorisation excessive d'ouvrages populaires souligne les défis des grands modèles de langage concernant les questions de droits d'auteur.