Atenção Esparsa Nativa: Alinhada a Hardware e Treinável Nativamente

A modelagem de contexto longo continua sendo um desafio em PNL. Este artigo do ACL 2025 apresenta NSA, um mecanismo de Atenção Esparsa treinado nativamente. A NSA combina de forma inteligente inovações algorítmicas com otimizações alinhadas a hardware. Usando uma estratégia esparsa hierárquica dinâmica (compressão de tokens de grão grosso e seleção de tokens de grão fino), ela obtém ganhos significativos de eficiência, preservando a conscientização do contexto global e a precisão local. A NSA permite treinamento de ponta a ponta, reduzindo os custos de pré-treinamento e igualando ou superando os modelos de Atenção Completa em vários benchmarks, mostrando acelerações substanciais em sequências de 64k de comprimento na decodificação, propagação para frente e propagação para trás.