TinyStories: Modelos de linguagem pequenos ainda podem falar inglês coerente?

2025-01-02

Pesquisadores apresentam o TinyStories, um conjunto de dados sintético de histórias curtas usando apenas vocabulário compreendido por crianças típicas de 3 a 4 anos, gerado por GPT-3.5 e GPT-4. Eles demonstram que modelos de linguagem treinados em TinyStories, mesmo aqueles com menos de 10 milhões de parâmetros e arquiteturas simples (um único bloco transformador), podem gerar histórias de vários parágrafos fluentes e coerentes, exibindo gramática e raciocínio surpreendentemente bons. Isso desafia a noção de que a geração de texto coerente requer modelos massivos e arquiteturas complexas e introduz um novo paradigma de avaliação usando GPT-4 para classificar histórias geradas como um professor humano, superando as limitações dos benchmarks padrão.