SmolGPT: Una implementación mínima de PyTorch para entrenar LLMs pequeños
2025-01-29
SmolGPT es un proyecto PyTorch mínimo diseñado con fines educativos, que permite a los usuarios entrenar sus propios modelos de lenguaje pequeños (LLMs) desde cero. Cuenta con una arquitectura moderna que incorpora Flash Attention, RMSNorm y SwiGLU, junto con técnicas de muestreo eficientes. El proyecto proporciona una canalización de entrenamiento completa, pesos de modelo preentrenados y ejemplos de generación de texto, facilitando el aprendizaje y la experimentación con el entrenamiento de LLMs.
Desarrollo
entrenamiento de LLM