Von Multi-Head zu Latent Attention: Die Entwicklung von Aufmerksamkeitsmechanismen
Dieser Artikel untersucht die Entwicklung von Aufmerksamkeitsmechanismen in der Verarbeitung natürlicher Sprache, von der anfänglichen Multi-Head Attention (MHA) bis hin zu fortschrittlicheren Varianten wie der Multi-Latent Head Attention (MHLA). MHA gewichtet wichtige Wörter im Kontext, indem es Query-, Key- und Value-Vektoren berechnet; seine Rechen- und Speicherkomplexität wächst jedoch quadratisch mit der Sequenzlänge. Um dies zu beheben, sind neuere Ansätze wie MHLA entstanden, die die Rechengeschwindigkeit und Skalierbarkeit verbessern, ohne die Leistung zu beeinträchtigen – beispielsweise durch die Verwendung von KV-Caching zur Reduzierung redundanter Berechnungen. Der Artikel erklärt klar die Kernkonzepte, Vorteile und Einschränkungen dieser Mechanismen und ihre Anwendungen in Modellen wie BERT, RoBERTa und Deepseek.