Bamba da IBM: Superando o gargalo quadrático dos Transformers

2025-04-29
Bamba da IBM: Superando o gargalo quadrático dos Transformers

A arquitetura Transformer por trás dos grandes modelos de linguagem de hoje, embora eficaz, sofre de um gargalo quadrático em conversas mais longas. O modelo Bamba, de código aberto da IBM, aborda isso combinando inteligentemente modelos de espaço de estados (SSMs) com Transformers. Bamba reduz significativamente os requisitos de memória, resultando em pelo menos o dobro da velocidade de Transformers comparáveis, mantendo a precisão. Treinado em trilhões de tokens, o Bamba está preparado para lidar com conversas com milhões de tokens e potencialmente funcionar até cinco vezes mais rápido com otimizações adicionais.