Meta et OpenAI accusées d'avoir utilisé une base de données piratée pour entraîner des modèles d'IA

2025-03-22
Meta et OpenAI accusées d'avoir utilisé une base de données piratée pour entraîner des modèles d'IA

Meta et OpenAI sont impliquées dans une controverse sur le droit d'auteur après qu'il a été révélé qu'elles avaient utilisé la base de données de livres piratée Library Genesis (LibGen) pour entraîner leurs modèles d'IA. Afin d'accélérer l'entraînement de son modèle Llama 3, Meta a contourné les processus de licence coûteux et a téléchargé directement des millions de livres et d'articles de recherche de LibGen. Cette action a donné lieu à un procès intenté par des auteurs, des documents judiciaires révélant que les employés de Meta ont reconnu les risques juridiques et ont tenté de dissimuler leurs actions. OpenAI a également admis avoir utilisé LibGen par le passé, mais affirme que ses modèles les plus récents ne reposent plus sur cet ensemble de données. L'incident met en lumière les défis éthiques et juridiques liés à l'origine des données d'entraînement pour les modèles d'IA et à la protection de la propriété intellectuelle.