Titans: Eine neue neuronale Architektur zum Lernen des Memorierens zur Testzeit
2025-01-16
Forscher stellen Titans vor, eine neue neuronale Architektur, die ein neuronales Speichermodul mit einem Aufmerksamkeitsmechanismus kombiniert, um den langfristigen historischen Kontext effektiv zu speichern. Im Gegensatz zu traditionellen rekurrenten Modellen und Aufmerksamkeitsmechanismen zeigt Titans höhere Effizienz und Genauigkeit bei der Verarbeitung langer Sequenzen, insbesondere bei "Suche nach der Nadel im Heuhaufen". Es übertrifft Transformer und neuere lineare rekurrente Modelle in verschiedenen Aufgaben, darunter Sprachmodellierung, Common-Sense-Reasoning, Genomik und Zeitreihen, und skaliert auf Kontextfenster von über 2 Millionen Token.