SmolGPT: Eine minimale PyTorch-Implementierung zum Trainieren kleiner LLMs
2025-01-29
SmolGPT ist ein minimales PyTorch-Projekt, das zu Bildungszwecken entwickelt wurde und es Benutzern ermöglicht, eigene kleine Sprachmodelle (LLMs) von Grund auf zu trainieren. Es bietet eine moderne Architektur mit Flash Attention, RMSNorm und SwiGLU sowie effiziente Sampling-Techniken. Das Projekt umfasst eine vollständige Trainingspipeline, vorab trainierte Modellgewichte und Beispiele für die Textgenerierung, um das Lernen und Experimentieren mit dem LLM-Training zu vereinfachen.
Entwicklung
LLM-Training