Warum LLMs bei langen Konversationen katastrophal versagen: Attention Sinks und StreamingLLM
Forscher haben entdeckt, warum große Sprachmodelle (LLMs) bei langen Konversationen katastrophal versagen: Das Entfernen alter Tokens, um Speicher zu sparen, führt dazu, dass die Modelle völlig unsinnigen Text produzieren. Sie fanden heraus, dass Modelle eine enorme Aufmerksamkeit auf die ersten paar Tokens lenken, die als „Attention Sinks“ fungieren – Orte, an denen ungenutzte Aufmerksamkeit geparkt wird, da Softmax erfordert, dass sich die Gewichte zu 1 summieren. Ihre Lösung, StreamingLLM, behält einfach die ersten 4 Tokens dauerhaft bei, während das Fenster für alles andere verschoben wird, wodurch eine stabile Verarbeitung von über 4 Millionen Tokens statt nur Tausender ermöglicht wird. Dieser Mechanismus ist jetzt in HuggingFace, NVIDIA TensorRT-LLM und den neuesten Modellen von OpenAI integriert. OpenAIs Open-Source-Modelle verwenden ebenfalls einen ähnlichen Attention-Sink-Mechanismus, was die praktische Bedeutung dieser Forschung unterstreicht.
Mehr lesen