Más Allá de la Atención: Avances Recientes en Arquitecturas de Transformadores Eficientes

2025-05-23

Este artículo explora varios avances clave en las arquitecturas de Transformadores que van más allá del mecanismo de atención original. Estas técnicas se centran principalmente en reducir la complejidad computacional y los requisitos de memoria. Algunos ejemplos incluyen la Atención de Consulta en Grupo (GQA), que reduce el uso de memoria compartiendo proyecciones de clave/valor; la Atención Latente de Múltiples Cabezas (MHA), que utiliza vectores latentes para disminuir la complejidad computacional; Flash Attention, que optimiza la velocidad mediante una gestión inteligente de la memoria; y la Atención en Anillo (Ring Attention), que utiliza el paralelismo de múltiples GPUs para secuencias extremadamente largas. Además, el artículo abarca la prenormalización, RMSNorm, funciones de activación SwiGLU y métodos de normalización, así como el calentamiento de la tasa de aprendizaje, la programación de coseno, Mixture of Experts (MoE), la predicción de múltiples tokens y la decodificación especulativa. Estas técnicas colectivamente amplían los límites de los Transformadores, permitiéndoles manejar secuencias más largas y datos de mayor dimensión de manera más eficiente, mejorando en última instancia tanto la velocidad como el rendimiento.

Desarrollo