Atención Dispersa Nativa: Alineada con Hardware y Entrenable Nativamente

2025-08-02
Atención Dispersa Nativa: Alineada con Hardware y Entrenable Nativamente

El modelado de contexto largo sigue siendo un desafío en PNL. Este artículo de ACL 2025 presenta NSA, un mecanismo de Atención Dispersa entrenado de forma nativa. NSA combina inteligentemente innovaciones algorítmicas con optimizaciones alineadas con el hardware. Utilizando una estrategia dispersa jerárquica dinámica (compresión de tokens de grano grueso y selección de tokens de grano fino), logra ganancias significativas de eficiencia, preservando la conciencia del contexto global y la precisión local. NSA permite el entrenamiento de extremo a extremo, reduciendo los costos de preentrenamiento, e iguala o supera a los modelos de Atención Completa en varios puntos de referencia, mostrando aceleraciones sustanciales en secuencias de 64k de longitud en la decodificación, propagación hacia adelante y propagación hacia atrás.