OpenAI Acusada de Entrenar GPT-4o con Libros de Pago sin Autorización
Un nuevo artículo del Proyecto de Divulgaciones de IA acusa a OpenAI de usar libros de pago sin licencia, principalmente de O'Reilly Media, para entrenar su modelo GPT-4o. El artículo utiliza el método DE-COP para demostrar que GPT-4o muestra un reconocimiento significativamente mayor del contenido de pago de O'Reilly que GPT-3.5 Turbo, lo que sugiere datos no autorizados sustanciales en su entrenamiento. Si bien OpenAI posee algunas licencias de datos y ofrece mecanismos de exclusión, esto se suma a los desafíos legales existentes relacionados con sus prácticas de derechos de autor. Los autores reconocen limitaciones en su metodología, pero los hallazgos plantean serias preocupaciones sobre los métodos de adquisición de datos de OpenAI.