TinyStories: ¿Pueden los modelos de lenguaje pequeños aún hablar inglés coherente?

2025-01-02
TinyStories: ¿Pueden los modelos de lenguaje pequeños aún hablar inglés coherente?

Los investigadores presentan TinyStories, un conjunto de datos sintético de historias cortas que utilizan solo vocabulario comprendido por niños típicos de 3 a 4 años, generado por GPT-3.5 y GPT-4. Demuestran que los modelos de lenguaje entrenados en TinyStories, incluso aquellos con menos de 10 millones de parámetros y arquitecturas simples (un solo bloque transformador), pueden generar historias de varios párrafos fluidas y coherentes, mostrando una gramática y un razonamiento sorprendentemente buenos. Esto desafía la idea de que la generación de texto coherente requiere modelos masivos y arquitecturas complejas, e introduce un nuevo paradigma de evaluación que utiliza GPT-4 para calificar las historias generadas como un profesor humano, superando las limitaciones de los puntos de referencia estándar.