Harvard publie un énorme jeu de données gratuit pour l'entraînement de l'IA

2024-12-18

L'Université Harvard, en collaboration avec Microsoft et OpenAI, a publié un énorme jeu de données pour l'entraînement de l'IA contenant près d'un million de livres du domaine public. Créé par l'Initiative de données institutionnelles de Harvard, ce jeu de données vise à « niveler le terrain de jeu » en donnant aux petits acteurs et aux chercheurs individuels accès à des référentiels de contenu hautement raffinés et organisés, que seules les grandes entreprises technologiques avaient les ressources pour assembler. Semblable à l'impact de Linux, cette ressource, couvrant divers genres, décennies et langues, stimulera le développement de modèles d'IA. Cependant, les entreprises auront toujours besoin de données de formation supplémentaires sous licence pour différencier leurs modèles.