KV-Cache-Tricks für schnellere Sprachmodelle

2025-01-28
KV-Cache-Tricks für schnellere Sprachmodelle

Die Langsamkeit großer Sprachmodelle (LLMs) bei der Textgenerierung rührt von der rechnerischen Komplexität der Selbstaufmerksamkeit her. Dieser Artikel untersucht KV-Caching und dessen Optimierungstechniken. KV-Caching speichert Schlüssel-Wert-Paare für jedes Token, um redundante Berechnungen zu vermeiden und die Komplexität von O(n³) auf O(n²) zu reduzieren; der Speicherverbrauch bleibt jedoch erheblich. Der Artikel beleuchtet 11 Artikel, die Optimierungen vorschlagen: Token-Selektion und -Pruning basierend auf Aufmerksamkeitswerten, Post-Hoc-Kompressionstechniken und Architektur-Neugestaltungen wie Multi-Head Latent Attention (MLA). Diese zielen darauf ab, Speicherverbrauch und Rechenleistung auszubalancieren und Modelle wie ChatGPT schneller und effizienter bei der Textgenerierung zu machen.