SmolGPT: Implementação mínima do PyTorch para treinamento de LLMs pequenos
2025-01-29
SmolGPT é um projeto PyTorch mínimo projetado para fins educacionais, permitindo que os usuários treinem seus próprios modelos de linguagem pequenos (LLMs) do zero. Ele apresenta uma arquitetura moderna que incorpora Flash Attention, RMSNorm e SwiGLU, juntamente com técnicas de amostragem eficientes. O projeto fornece um pipeline de treinamento completo, pesos de modelo pré-treinado e exemplos de geração de texto, facilitando o aprendizado e a experimentação com o treinamento de LLM.
Desenvolvimento
treinamento de LLM