SepLLM: Aceleración de inferencia para LLMs mediante la compresión de tokens sin significado

2025-03-06
SepLLM: Aceleración de inferencia para LLMs mediante la compresión de tokens sin significado

Los modelos de lenguaje grandes (LLM) enfrentan desafíos significativos debido a sus enormes demandas computacionales. Los investigadores descubrieron que ciertos tokens especiales sin significado contribuyen desproporcionadamente a las puntuaciones de atención. Con base en esto, proponen SepLLM, una estructura que acelera la inferencia comprimiendo segmentos entre estos tokens y descartando los redundantes. Los experimentos muestran que SepLLM logra una reducción de más del 50% en la caché KV en el benchmark GSM8K-CoT con una pérdida de rendimiento insignificante utilizando Llama-3-8B. En configuraciones de transmisión, SepLLM maneja eficazmente el modelado del lenguaje con hasta 4 millones de tokens o más.