Warum LLMs bei langen Konversationen katastrophal versagen: Attention Sinks und StreamingLLM

2025-08-09

Forscher haben entdeckt, warum große Sprachmodelle (LLMs) bei langen Konversationen katastrophal versagen: Das Entfernen alter Tokens, um Speicher zu sparen, führt dazu, dass die Modelle völlig unsinnigen Text produzieren. Sie fanden heraus, dass Modelle eine enorme Aufmerksamkeit auf die ersten paar Tokens lenken, die als „Attention Sinks“ fungieren – Orte, an denen ungenutzte Aufmerksamkeit geparkt wird, da Softmax erfordert, dass sich die Gewichte zu 1 summieren. Ihre Lösung, StreamingLLM, behält einfach die ersten 4 Tokens dauerhaft bei, während das Fenster für alles andere verschoben wird, wodurch eine stabile Verarbeitung von über 4 Millionen Tokens statt nur Tausender ermöglicht wird. Dieser Mechanismus ist jetzt in HuggingFace, NVIDIA TensorRT-LLM und den neuesten Modellen von OpenAI integriert. OpenAIs Open-Source-Modelle verwenden ebenfalls einen ähnlichen Attention-Sink-Mechanismus, was die praktische Bedeutung dieser Forschung unterstreicht.

Mehr lesen
KI

SVDQuant: 3-fache Beschleunigung auf Blackwell-GPUs mit NVFP4

2025-02-22

Forscher des MIT haben SVDQuant entwickelt, ein neues 4-Bit-Quantisierungsverfahren, das einen niederdimensionalen Zweig verwendet, um Ausreißer zu absorbieren und so zu erheblichen Performance-Steigerungen auf der NVIDIA Blackwell-GPU-Architektur führt. Mit dem NVFP4-Format erreicht SVDQuant eine bessere Bildqualität als INT4 und ist 3-mal schneller als BF16, wobei der Speicherverbrauch um das 3,5-fache reduziert wird. Die Forschung ist Open Source und enthält eine interaktive Demo.

Mehr lesen