Harvard publica un enorme conjunto de datos gratuito para entrenamiento de IA

2024-12-18

La Universidad de Harvard, en colaboración con Microsoft y OpenAI, ha publicado un enorme conjunto de datos para el entrenamiento de IA que contiene casi 1 millón de libros de dominio público. Creado por la Iniciativa de Datos Institucionales de Harvard, este conjunto de datos tiene como objetivo 'nivelar el campo de juego', proporcionando a los pequeños participantes e investigadores individuales acceso a datos de entrenamiento de alta calidad, que antes solo estaban disponibles para las grandes empresas de tecnología. Similar al impacto de Linux, este recurso, que abarca varios géneros, décadas e idiomas, impulsará el desarrollo de modelos de IA. Sin embargo, las empresas necesitarán datos con licencia adicionales para diferenciar sus modelos.