Tensorprodukt-Attention: Alles, was Sie brauchen

2025-01-22
Tensorprodukt-Attention: Alles, was Sie brauchen

Die Skalierung von Sprachmodellen zur Verarbeitung längerer Eingabefolgen erfordert in der Regel große Schlüssel-Wert-Caches (KV-Caches), was zu einem erheblichen Speicheraufwand während der Inferenz führt. In diesem Artikel wird die Tensorprodukt-Attention (TPA) vorgestellt, ein neuartiger Aufmerksamkeitsmechanismus, der Tensorzerlegungen verwendet, um Abfragen, Schlüssel und Werte kompakt darzustellen und so die Größe des KV-Caches während der Inferenz deutlich zu reduzieren. Durch die Faktorisierung dieser Darstellungen in kontextbezogene niederdimensionale Komponenten (kontextuelle Faktorisierung) und die nahtlose Integration mit RoPE verbessert TPA die Modellqualität bei gleichzeitiger Beibehaltung der Speichereffizienz. Basierend auf TPA stellen die Autoren den Tensorprodukt-Attention-Transformer (T6) vor, eine neue Modellarchitektur für die Sequenzmodellierung. Umfangreiche empirische Evaluierungen bei Sprachmodellierungsaufgaben zeigen, dass T6 Standard-Transformer-Basislinien wie MHA, MQA, GQA und MLA in verschiedenen Metriken, darunter Perplexität und eine Reihe bekannter Bewertungsbenchmarks, übertrifft. Insbesondere ermöglicht die Speichereffizienz von TPA die Verarbeitung deutlich längerer Sequenzen unter festen Ressourcenbeschränkungen und behebt damit eine kritische Skalierbarkeitsherausforderung bei modernen Sprachmodellen. Der Code ist verfügbar.