Les guerres du grattage de données des LLM : une bataille sur les droits d’auteur et la riposte
L’évolution de la manière dont les grands modèles linguistiques (LLM) acquièrent les données d’entraînement a déclenché des batailles acharnées sur les droits d’auteur. Au départ, le grattage de données manquait de considérations éthiques et juridiques. Cependant, avec la commercialisation d’applications comme ChatGPT, les questions de droits d’auteur sont devenues de plus en plus importantes, amenant les auteurs et les éditeurs à poursuivre les entreprises d’IA. Des entreprises comme OpenAI ont commencé à conclure des accords avec les éditeurs pour accéder aux données, mais le grattage de données s’est poursuivi sans relâche et est même devenu plus audacieux. En réponse à cet abus de données, Cloudflare et d’autres entreprises ont introduit des outils anti-grattage, et la norme RSL a émergé, permettant aux sites Web de fixer des prix pour l’accès aux données. Cela marque une contre-attaque proactive des propriétaires de sites Web, et les entreprises d’IA pourraient finir par être obligées de payer pour les données, modifiant ainsi l’écosystème d’acquisition de données.
Lire plus