Meta apresenta o Byte Latent Transformer (BLT): superando LLMs baseados em tokenização

2024-12-14

Pesquisadores do Meta AI apresentaram o Byte Latent Transformer (BLT), uma nova arquitetura de modelo de linguagem grande que processa bytes diretamente, em vez de tokens. O BLT aloca dinamicamente recursos computacionais com base na entropia dos bytes, resultando em melhorias significativas na eficiência de inferência e robustez em comparação com modelos baseados em tokenização. Experimentos de escalonamento até 8 bilhões de parâmetros e 4 terabytes de dados de treinamento demonstram a capacidade do BLT de igualar o desempenho de LLMs baseados em tokens, oferecendo capacidades aprimoradas de raciocínio e tratamento de dados de cauda longa. Esta pesquisa mostra a viabilidade de treinar modelos de grande escala diretamente em bytes brutos sem um vocabulário fixo.