OpenAI accusée d'avoir entraîné GPT-4o avec des livres payants sans autorisation
Un nouveau document du AI Disclosures Project accuse OpenAI d'avoir utilisé des livres payants sans licence, principalement de O'Reilly Media, pour entraîner son modèle GPT-4o. L'article utilise la méthode DE-COP pour démontrer que GPT-4o présente une reconnaissance significativement plus forte du contenu payant d'O'Reilly que GPT-3.5 Turbo, suggérant des données non autorisées substantielles dans son entraînement. Bien qu'OpenAI possède certaines licences de données et offre des mécanismes de retrait, cela s'ajoute aux défis juridiques existants concernant ses pratiques en matière de droit d'auteur. Les auteurs reconnaissent les limites de leur méthodologie, mais les résultats soulèvent de sérieuses préoccupations concernant les méthodes d'acquisition de données d'OpenAI.