A Lição Amarga atinge a Tokenização: Uma Nova Era para LLMs?

Este artigo mergulha no problema generalizado de 'tokenização' em modelos de linguagem grandes (LLMs) e explora possíveis soluções. Métodos tradicionais de tokenização, como Codificação Byte-Pair (BPE), embora eficazes na compressão de vocabulários, limitam a expressividade do modelo e causam vários problemas a jusante. O artigo analisa várias arquiteturas que tentam contornar a tokenização, incluindo ByT5, MambaByte e Hourglass Transformers, focando no Byte Latent Transformer (BLT) recentemente surgido. O BLT particiona dinamicamente sequências de bytes, combinando codificadores locais e um transformador global para alcançar melhor desempenho e escalabilidade do que modelos tradicionais em configurações com restrições de computação, especialmente se destacando em tarefas de nível de caractere. Embora o BLT enfrente desafios, esta pesquisa aponta para uma nova direção para o desenvolvimento de LLM, potencialmente inaugurando uma era livre de tokenização.