Meta apresenta o Byte Latent Transformer (BLT): superando LLMs baseados em tokenização

2024-12-14

Pesquisadores do Meta AI apresentaram o Byte Latent Transformer (BLT), uma nova arquitetura de modelo de linguagem grande que processa bytes diretamente, em vez de tokens. O BLT aloca dinamicamente recursos computacionais com base na entropia dos bytes, resultando em melhorias significativas na eficiência de inferência e robustez em comparação com modelos baseados em tokenização. Experimentos de escalonamento até 8 bilhões de parâmetros e 4 terabytes de dados de treinamento demonstram a capacidade do BLT de igualar o desempenho de LLMs baseados em tokens, oferecendo capacidades aprimoradas de raciocínio e tratamento de dados de cauda longa. Esta pesquisa mostra a viabilidade de treinar modelos de grande escala diretamente em bytes brutos sem um vocabulário fixo.

Leia mais

Meta FAIR Lança Pesquisas de IA Inovadoras e Modelos de Código Aberto

2024-12-13

O Meta FAIR lançou uma série de artefatos de pesquisa de IA inovadores, incluindo o Meta Motivo, um modelo fundamental para controlar agentes corporais virtuais, e o Meta Video Seal, um modelo de código aberto para marca d'água em vídeo. Este lançamento concentra-se em avanços nas capacidades dos agentes, robustez, segurança e inovações arquitetônicas para uma aprendizagem mais eficiente. Outras contribuições importantes incluem o código base Flow Matching, o Meta Explore Theory-of-Mind para raciocínio sobre a teoria da mente, os modelos de conceito amplo (LCMs) e o Dynamic Byte Latent Transformer. Ao disponibilizar esses modelos e ferramentas de código aberto, o Meta visa promover a colaboração e acelerar o desenvolvimento responsável da IA.

Leia mais