Das stärkste Modell in 5 Minuten auf einem MacBook Pro trainieren: Eine Herausforderung
Der Autor stellte sich der Herausforderung, das stärkste Sprachmodell innerhalb von fünf Minuten auf einem MacBook Pro zu trainieren. Die Experimente führten zu einem GPT-artigen Transformer mit ca. 1,8 Millionen Parametern, trainiert auf ca. 20 Millionen TinyStories-Token, mit einer Perplexität von ca. 9,6. Die Optimierungen konzentrierten sich auf die Maximierung der Token pro Sekunde, wobei MPS bevorzugt und Gradient Accumulation vermieden wurde. Die Datensatzauswahl war entscheidend, wobei die einfache und kohärente Sprache von TinyStories überlegen war. Transformer übertrafen LSTMs und Diffusionsmodelle. Die optimale Modellgröße für ein fünfminütiges Training betrug etwa 2 Millionen Parameter, was mit den Chinchilla-Skalierungsgesetzen übereinstimmt.