SmolGPT: Implementação mínima do PyTorch para treinamento de LLMs pequenos

2025-01-29
SmolGPT: Implementação mínima do PyTorch para treinamento de LLMs pequenos

SmolGPT é um projeto PyTorch mínimo projetado para fins educacionais, permitindo que os usuários treinem seus próprios modelos de linguagem pequenos (LLMs) do zero. Ele apresenta uma arquitetura moderna que incorpora Flash Attention, RMSNorm e SwiGLU, juntamente com técnicas de amostragem eficientes. O projeto fornece um pipeline de treinamento completo, pesos de modelo pré-treinado e exemplos de geração de texto, facilitando o aprendizado e a experimentação com o treinamento de LLM.

Desenvolvimento treinamento de LLM