Harvard veröffentlicht riesigen kostenlosen KI-Trainingsdatensatz

2024-12-18

Die Harvard University hat in Zusammenarbeit mit Microsoft und OpenAI einen riesigen KI-Trainingsdatensatz mit fast einer Million Büchern aus dem öffentlichen Bereich veröffentlicht. Erstellt von Harvards Institutional Data Initiative, soll dieser Datensatz das „Spielfeld nivellieren“, indem er kleineren Akteuren und Einzelforschern Zugang zu hochwertigen Trainingsdaten ermöglicht, die bisher nur großen Technologieunternehmen zugänglich waren. Ähnlich wie Linux wird diese Ressource, die verschiedene Genres, Jahrzehnte und Sprachen umfasst, die Entwicklung von KI-Modellen vorantreiben. Unternehmen benötigen jedoch weiterhin zusätzliche lizenzierte Daten, um ihre Modelle zu unterscheiden.