Astuces de cache KV pour des modèles linguistiques plus rapides
La lenteur des grands modèles linguistiques (LLM) lors de la génération de texte provient de la complexité computationnelle de l'auto-attention. Cet article explore le cache KV et ses techniques d'optimisation. Le cache KV stocke des paires clé-valeur pour chaque jeton afin d'éviter les calculs redondants, réduisant la complexité de O(n³) à O(n²); cependant, la consommation de mémoire reste importante. L'article examine 11 articles proposant des optimisations : sélection et élagage des jetons basés sur les scores d'attention, techniques de compression post-hoc et remaniements architecturaux, tels que l'Attention Latente Multi-tête (MLA). Celles-ci visent à équilibrer l'utilisation de la mémoire et l'efficacité computationnelle, rendant des modèles comme ChatGPT plus rapides et plus efficaces pour générer du texte.