tiny-llm : Servir des LLMs en une semaine – Un tutoriel pratique

2025-04-28
tiny-llm : Servir des LLMs en une semaine – Un tutoriel pratique

tiny-llm est un tutoriel qui vous guide dans la construction d'une infrastructure de service LLM en une semaine. Il se concentre sur l'utilisation des API matrice/tableau de MLX, en évitant les API de réseau neuronal de haut niveau pour construire à partir de zéro et comprendre les optimisations. Le tutoriel couvre des concepts essentiels tels que les mécanismes d'attention, RoPE et l'attention de requête groupée, progressant vers le chargement du modèle et la génération de réponses. Actuellement, l'attention, RoPE et le chargement du modèle sont terminés. Les chapitres futurs aborderont le cache KV, la multiplication matricielle quantifiée, Flash Attention et d'autres optimisations, visant un service LLM efficace pour des modèles comme Qwen2.

Développement Service de Modèle