Por qué los LLM fallan catastróficamente en conversaciones largas: sumideros de atención y StreamingLLM
Los investigadores descubrieron por qué los grandes modelos de lenguaje (LLM) fallan catastróficamente en conversaciones largas: eliminar tokens antiguos para ahorrar memoria hace que los modelos produzcan resultados completamente sin sentido. Descubrieron que los modelos descargan mucha atención en los primeros tokens como "sumideros de atención": lugares para estacionar la atención no utilizada, ya que la función softmax requiere que las ponderaciones sumen 1. Su solución, StreamingLLM, simplemente mantiene los 4 primeros tokens de forma permanente mientras desliza la ventana para todo lo demás, permitiendo el procesamiento estable de más de 4 millones de tokens en lugar de solo miles. Este mecanismo ahora está presente en HuggingFace, NVIDIA TensorRT-LLM y en los modelos más recientes de OpenAI. Los modelos de código abierto de OpenAI también utilizan un mecanismo similar de sumidero de atención, destacando el impacto práctico de esta investigación.
Leer más