Das stärkste Modell in 5 Minuten auf einem MacBook Pro trainieren: Eine Herausforderung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Das stärkste Modell in 5 Minuten auf einem MacBook Pro trainieren: Eine Herausforderung

2025-08-14

Der Autor stellte sich der Herausforderung, das stärkste Sprachmodell innerhalb von fünf Minuten auf einem MacBook Pro zu trainieren. Die Experimente führten zu einem GPT-artigen Transformer mit ca. 1,8 Millionen Parametern, trainiert auf ca. 20 Millionen TinyStories-Token, mit einer Perplexität von ca. 9,6. Die Optimierungen konzentrierten sich auf die Maximierung der Token pro Sekunde, wobei MPS bevorzugt und Gradient Accumulation vermieden wurde. Die Datensatzauswahl war entscheidend, wobei die einfache und kohärente Sprache von TinyStories überlegen war. Transformer übertrafen LSTMs und Diffusionsmodelle. Die optimale Modellgröße für ein fünfminütiges Training betrug etwa 2 Millionen Parameter, was mit den Chinchilla-Skalierungsgesetzen übereinstimmt.

(www.seangoedecke.com)

Die Freuden und Leiden von Schriftlizenzen: Die Perspektive eines Designers

Die Geheimnisse des Erfolgs von ArchWiki: Lehren aus der DebConf25