Trucos de caché KV para modelos de lenguaje más rápidos

2025-01-28
Trucos de caché KV para modelos de lenguaje más rápidos

La lentitud de los grandes modelos de lenguaje (LLM) en la generación de texto se debe a la complejidad computacional de la autoatención. Este artículo explora la caché KV y sus técnicas de optimización. La caché KV almacena pares clave-valor para cada token para evitar cálculos redundantes, reduciendo la complejidad de O(n³) a O(n²); sin embargo, el consumo de memoria sigue siendo sustancial. El artículo analiza 11 artículos que proponen optimizaciones: selección y poda de tokens basada en puntuaciones de atención, técnicas de compresión post-hoc y rediseños arquitectónicos, como la Atención Latente Multi-cabeza (MLA). Estas buscan equilibrar el uso de memoria y la eficiencia computacional, haciendo que modelos como ChatGPT generen texto de forma más rápida y eficiente.