SepLLM: Inferenzbeschleunigung für LLMs durch Komprimierung bedeutungsloser Token

2025-03-06
SepLLM: Inferenzbeschleunigung für LLMs durch Komprimierung bedeutungsloser Token

Große Sprachmodelle (LLMs) stehen aufgrund ihres enormen Rechenaufwands vor erheblichen Herausforderungen. Forscher haben festgestellt, dass bestimmte bedeutungslose Spezial-Token überproportional zu den Attention-Scores beitragen. Darauf basierend stellen sie SepLLM vor, ein Framework, das die Inferenz durch Komprimierung der Segmente zwischen diesen Token und das Entfernen redundanter Token beschleunigt. Experimente zeigen, dass SepLLM eine Reduktion des KV-Caches um über 50 % auf dem GSM8K-CoT-Benchmark erreicht, wobei die Leistungseinbußen mit Llama-3-8B vernachlässigbar sind. In Streaming-Einstellungen verarbeitet SepLLM effektiv die Sprachmodellierung mit bis zu 4 Millionen Token oder mehr.