Más Allá de la Atención: Avances Recientes en Arquitecturas de Transformadores Eficientes
Este artículo explora varios avances clave en las arquitecturas de Transformadores que van más allá del mecanismo de atención original. Estas técnicas se centran principalmente en reducir la complejidad computacional y los requisitos de memoria. Algunos ejemplos incluyen la Atención de Consulta en Grupo (GQA), que reduce el uso de memoria compartiendo proyecciones de clave/valor; la Atención Latente de Múltiples Cabezas (MHA), que utiliza vectores latentes para disminuir la complejidad computacional; Flash Attention, que optimiza la velocidad mediante una gestión inteligente de la memoria; y la Atención en Anillo (Ring Attention), que utiliza el paralelismo de múltiples GPUs para secuencias extremadamente largas. Además, el artículo abarca la prenormalización, RMSNorm, funciones de activación SwiGLU y métodos de normalización, así como el calentamiento de la tasa de aprendizaje, la programación de coseno, Mixture of Experts (MoE), la predicción de múltiples tokens y la decodificación especulativa. Estas técnicas colectivamente amplían los límites de los Transformadores, permitiéndoles manejar secuencias más largas y datos de mayor dimensión de manera más eficiente, mejorando en última instancia tanto la velocidad como el rendimiento.