Atención por Producto Tensorial: Todo lo que necesitas
Escalar los modelos de lenguaje para manejar secuencias de entrada más largas normalmente requiere grandes cachés de clave-valor (KV), lo que resulta en una sobrecarga de memoria sustancial durante la inferencia. Este artículo propone la Atención por Producto Tensorial (TPA), un nuevo mecanismo de atención que utiliza descomposiciones tensoriales para representar consultas, claves y valores de forma compacta, reduciendo significativamente el tamaño del caché KV durante la inferencia. Al factorizar estas representaciones en componentes de bajo rango contextuales (factorización contextual) e integrándolas perfectamente con RoPE, la TPA mejora la calidad del modelo manteniendo la eficiencia de memoria. Basándose en la TPA, los autores introducen el Transformador de Atención por Producto Tensorial (T6), una nueva arquitectura de modelo para el modelado de secuencias. Una evaluación empírica extensa en tareas de modelado de lenguaje demuestra que T6 supera los modelos base estándar del Transformer, incluyendo MHA, MQA, GQA y MLA, en varias métricas, incluyendo la perplejidad y una variedad de conocidos benchmarks de evaluación. Notablemente, la eficiencia de memoria de la TPA permite el procesamiento de secuencias significativamente más largas bajo restricciones de recursos fijas, abordando un desafío crítico de escalabilidad en los modelos de lenguaje modernos. El código está disponible.