Por qué los LLM fallan catastróficamente en conversaciones largas: sumideros de atención y StreamingLLM
Los investigadores descubrieron por qué los grandes modelos de lenguaje (LLM) fallan catastróficamente en conversaciones largas: eliminar tokens antiguos para ahorrar memoria hace que los modelos produzcan resultados completamente sin sentido. Descubrieron que los modelos descargan mucha atención en los primeros tokens como "sumideros de atención": lugares para estacionar la atención no utilizada, ya que la función softmax requiere que las ponderaciones sumen 1. Su solución, StreamingLLM, simplemente mantiene los 4 primeros tokens de forma permanente mientras desliza la ventana para todo lo demás, permitiendo el procesamiento estable de más de 4 millones de tokens en lugar de solo miles. Este mecanismo ahora está presente en HuggingFace, NVIDIA TensorRT-LLM y en los modelos más recientes de OpenAI. Los modelos de código abierto de OpenAI también utilizan un mecanismo similar de sumidero de atención, destacando el impacto práctico de esta investigación.