Entrenando el Modelo Más Potente en un MacBook Pro en 5 Minutos: Un Desafío
El autor se retó a entrenar el modelo de lenguaje más potente posible en un MacBook Pro en solo cinco minutos. Los experimentos culminaron en un Transformer de estilo GPT con aproximadamente 1,8 millones de parámetros, entrenado con aproximadamente 20 millones de tokens de TinyStories, alcanzando una perplexidad de aproximadamente 9,6. Las optimizaciones se centraron en maximizar los tokens por segundo, favoreciendo MPS y evitando la acumulación de gradiente. La selección del conjunto de datos fue crucial, siendo el lenguaje simple y coherente de TinyStories superior. Los Transformers superaron a las LSTMs y a los modelos de difusión. El tamaño de modelo óptimo para una ventana de entrenamiento de cinco minutos resultó ser de alrededor de 2 millones de parámetros, lo que coincide con las leyes de escalado de Chinchilla.