SepLLM : Accélération de l'inférence pour les LLM par compression des jetons sans signification

2025-03-06
SepLLM : Accélération de l'inférence pour les LLM par compression des jetons sans signification

Les grands modèles de langage (LLM) sont confrontés à des défis importants en raison de leurs demandes de calcul considérables. Des chercheurs ont découvert que certains jetons spéciaux sans signification contribuent de manière disproportionnée aux scores d'attention. Sur cette base, ils proposent SepLLM, une architecture qui accélère l'inférence en comprimant les segments entre ces jetons et en supprimant les jetons redondants. Les expériences montrent que SepLLM permet une réduction de plus de 50 % de la cache KV sur le benchmark GSM8K-CoT avec une perte de performance négligeable en utilisant Llama-3-8B. Dans les configurations de streaming, SepLLM gère efficacement la modélisation du langage avec jusqu'à 4 millions de jetons ou plus.