TinyStories : Des modèles linguistiques de petite taille peuvent-ils encore produire du texte anglais cohérent ?

Des chercheurs présentent TinyStories, un ensemble de données synthétique de courtes histoires utilisant uniquement le vocabulaire compris par des enfants typiques de 3 à 4 ans, généré par GPT-3.5 et GPT-4. Ils démontrent que les modèles linguistiques entraînés sur TinyStories, même ceux comportant moins de 10 millions de paramètres et des architectures simples (un seul bloc transformateur), peuvent générer des histoires cohérentes et fluides de plusieurs paragraphes, faisant preuve d’une grammaire et d’un raisonnement étonnamment bons. Cela remet en question l’idée que la génération de texte cohérent nécessite des modèles massifs et des architectures complexes, et introduit un nouveau paradigme d’évaluation utilisant GPT-4 pour noter les histoires générées comme le ferait un enseignant humain, surmontant ainsi les limites des benchmarks standard.