Über Attention hinaus: Jüngste Fortschritte bei effizienten Transformer-Architekturen
Dieser Artikel untersucht mehrere wichtige Fortschritte in Transformer-Architekturen, die über den ursprünglichen Aufmerksamkeitsmechanismus hinausgehen. Diese Techniken konzentrieren sich hauptsächlich auf die Reduzierung der Rechenkomplexität und des Speicherbedarfs. Beispiele hierfür sind die gruppierte Query-Attention (GQA), die den Speicherverbrauch durch die gemeinsame Nutzung von Schlüssel-/Wertprojektionen reduziert; die mehrköpfige latente Attention (MHA), die latente Vektoren verwendet, um die Rechenkomplexität zu verringern; Flash Attention, das die Geschwindigkeit durch intelligentes Speichermanagement optimiert; und Ring Attention, das Multi-GPU-Parallelität für extrem lange Sequenzen nutzt. Darüber hinaus behandelt der Artikel die Prä-Normierung, RMSNorm, SwiGLU-Aktivierungsfunktionen und Normalisierungsmethoden sowie das Aufwärmen der Lernrate, Cosinus-Scheduling, Mixture of Experts (MoE), Multi-Token-Vorhersage und spekulatives Decodieren. Diese Techniken erweitern die Möglichkeiten von Transformatoren, ermöglichen die effizientere Verarbeitung längerer Sequenzen und höherdimensionaler Daten und verbessern letztendlich sowohl Geschwindigkeit als auch Leistung.