Por qué los LLM fallan catastróficamente en conversaciones largas: sumideros de atención y StreamingLLM

2025-08-09

Los investigadores descubrieron por qué los grandes modelos de lenguaje (LLM) fallan catastróficamente en conversaciones largas: eliminar tokens antiguos para ahorrar memoria hace que los modelos produzcan resultados completamente sin sentido. Descubrieron que los modelos descargan mucha atención en los primeros tokens como "sumideros de atención": lugares para estacionar la atención no utilizada, ya que la función softmax requiere que las ponderaciones sumen 1. Su solución, StreamingLLM, simplemente mantiene los 4 primeros tokens de forma permanente mientras desliza la ventana para todo lo demás, permitiendo el procesamiento estable de más de 4 millones de tokens en lugar de solo miles. Este mecanismo ahora está presente en HuggingFace, NVIDIA TensorRT-LLM y en los modelos más recientes de OpenAI. Los modelos de código abierto de OpenAI también utilizan un mecanismo similar de sumidero de atención, destacando el impacto práctico de esta investigación.

Leer más
IA

SVDQuant: Aceleración 3x en GPUs Blackwell con NVFP4

2025-02-22

Investigadores del MIT han desarrollado SVDQuant, un nuevo paradigma de cuantificación de 4 bits que aprovecha una rama de bajo rango para absorber valores atípicos, lo que resulta en ganancias significativas de rendimiento en la arquitectura de GPU Blackwell de NVIDIA. Utilizando el formato NVFP4, SVDQuant logra una mejor calidad de imagen que INT4 y es 3 veces más rápido que BF16, con una reducción del 3,5 veces en el uso de memoria. La investigación es de código abierto e incluye una demostración interactiva.

Leer más