Entraîner le modèle le plus puissant sur un MacBook Pro en 5 minutes : un défi

2025-08-14

L'auteur s'est lancé le défi d'entraîner le modèle de langage le plus puissant possible sur un MacBook Pro en seulement cinq minutes. Les expériences ont abouti à un transformateur de style GPT d'environ 1,8 million de paramètres, entraîné sur environ 20 millions de jetons TinyStories, atteignant une perplexité d'environ 9,6. Les optimisations se sont concentrées sur la maximisation des jetons par seconde, en privilégiant MPS et en évitant l'accumulation de gradient. La sélection du jeu de données a été cruciale, le langage simple et cohérent de TinyStories s'avérant supérieur. Les transformateurs ont surpassé les LSTMs et les modèles de diffusion. La taille de modèle optimale pour une fenêtre d'entraînement de cinq minutes s'est avérée être d'environ 2 millions de paramètres, ce qui correspond aux lois d'échelle de Chinchilla.

IA