Treinando o Modelo Mais Forte em um MacBook Pro em 5 Minutos: Um Desafio

2025-08-14

O autor se desafiou a treinar o modelo de linguagem mais forte possível em um MacBook Pro em apenas cinco minutos. Os experimentos culminaram em um Transformer de estilo GPT com ~1,8M de parâmetros, treinado em ~20M tokens do TinyStories, alcançando ~9,6 de perplexidade. As otimizações focaram em maximizar tokens por segundo, favorecendo MPS e evitando acúmulo de gradiente. A seleção do conjunto de dados foi crucial, com a linguagem simples e coerente do TinyStories se mostrando superior. Transformers superaram LSTMs e modelos de difusão. O tamanho ideal do modelo para uma janela de treinamento de cinco minutos foi de cerca de 2M de parâmetros, alinhando-se com as leis de escalonamento Chinchilla.

IA