SepLLM : Accélération de l'inférence pour les LLM par compression des jetons sans signification

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-03-06

Les grands modèles de langage (LLM) sont confrontés à des défis importants en raison de leurs demandes de calcul considérables. Des chercheurs ont découvert que certains jetons spéciaux sans signification contribuent de manière disproportionnée aux scores d'attention. Sur cette base, ils proposent SepLLM, une architecture qui accélère l'inférence en comprimant les segments entre ces jetons et en supprimant les jetons redondants. Les expériences montrent que SepLLM permet une réduction de plus de 50 % de la cache KV sur le benchmark GSM8K-CoT avec une perte de performance négligeable en utilisant Llama-3-8B. Dans les configurations de streaming, SepLLM gère efficacement la modélisation du langage avec jusqu'à 4 millions de jetons ou plus.