Bamba de IBM: Superando el cuello de botella cuadrático de los Transformers

2025-04-29
Bamba de IBM: Superando el cuello de botella cuadrático de los Transformers

La arquitectura Transformer que impulsa los grandes modelos de lenguaje de hoy, si bien es eficaz, sufre de un cuello de botella cuadrático en conversaciones más largas. El modelo Bamba de código abierto de IBM aborda esto combinando inteligentemente modelos de espacio de estados (SSM) con Transformers. Bamba reduce significativamente los requisitos de memoria, lo que resulta en al menos el doble de velocidad que los Transformers comparables, manteniendo la precisión. Entrenado con billones de tokens, Bamba está preparado para manejar conversaciones con millones de tokens y potencialmente funcionar hasta cinco veces más rápido con optimizaciones adicionales.