Treinando o Modelo Mais Forte em um MacBook Pro em 5 Minutos: Um Desafio

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Treinando o Modelo Mais Forte em um MacBook Pro em 5 Minutos: Um Desafio

2025-08-14

O autor se desafiou a treinar o modelo de linguagem mais forte possível em um MacBook Pro em apenas cinco minutos. Os experimentos culminaram em um Transformer de estilo GPT com ~1,8M de parâmetros, treinado em ~20M tokens do TinyStories, alcançando ~9,6 de perplexidade. As otimizações focaram em maximizar tokens por segundo, favorecendo MPS e evitando acúmulo de gradiente. A seleção do conjunto de dados foi crucial, com a linguagem simples e coerente do TinyStories se mostrando superior. Transformers superaram LSTMs e modelos de difusão. O tamanho ideal do modelo para uma janela de treinamento de cinco minutos foi de cerca de 2M de parâmetros, alinhando-se com as leis de escalonamento Chinchilla.

(www.seangoedecke.com)

As dores e prazeres das licenças de tipografia: a perspectiva de um designer

Os Segredos do Sucesso do ArchWiki: Lições do DebConf25