Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

SepLLM: Aceleración de inferencia para LLMs mediante la compresión de tokens sin significado

2025-03-06

Los modelos de lenguaje grandes (LLM) enfrentan desafíos significativos debido a sus enormes demandas computacionales. Los investigadores descubrieron que ciertos tokens especiales sin significado contribuyen desproporcionadamente a las puntuaciones de atención. Con base en esto, proponen SepLLM, una estructura que acelera la inferencia comprimiendo segmentos entre estos tokens y descartando los redundantes. Los experimentos muestran que SepLLM logra una reducción de más del 50% en la caché KV en el benchmark GSM8K-CoT con una pérdida de rendimiento insignificante utilizando Llama-3-8B. En configuraciones de transmisión, SepLLM maneja eficazmente el modelado del lenguaje con hasta 4 millones de tokens o más.

(sepllm.github.io)

IA Aceleración de Inferencia Compresión de Modelo