Le Byte Latent Transformer (BLT) de Meta : surpassant les modèles LLM basés sur les jetons

2024-12-14

Les chercheurs de Meta IA ont présenté le Byte Latent Transformer (BLT), une nouvelle architecture de modèle linguistique de grande taille qui traite les octets directement, au lieu des jetons. Le BLT alloue dynamiquement des ressources de calcul en fonction de l'entropie des octets, ce qui entraîne des améliorations significatives de l'efficacité de l'inférence et de la robustesse par rapport aux modèles basés sur les jetons. Des expériences d'extrapolation jusqu'à 8 milliards de paramètres et 4 téraoctets de données d'entraînement démontrent la capacité du BLT à égaler les performances des modèles LLM basés sur les jetons, tout en offrant des capacités de raisonnement améliorées et une gestion des données à longue traîne. Cette recherche montre la faisabilité d'entraîner des modèles à grande échelle directement sur des octets bruts sans vocabulaire fixe.

Lire plus

Meta FAIR dévoile des recherches révolutionnaires en IA et des modèles open source

2024-12-13

Meta FAIR a publié une série d'artefacts de recherche révolutionnaires en IA, notamment Meta Motivo, un modèle fondamental pour contrôler les agents virtuels incarnés, et Meta Video Seal, un modèle open source pour le filigrane vidéo. Cette publication met l'accent sur les progrès des capacités des agents, la robustesse, la sécurité et les innovations architecturales pour un apprentissage plus efficace. D'autres contributions clés incluent la base de code Flow Matching, Meta Explore Theory-of-Mind pour le raisonnement sur la théorie de l'esprit, les grands modèles conceptuels (LCM) et le Dynamic Byte Latent Transformer. En open-sourçant ces modèles et outils, Meta vise à encourager la collaboration et à accélérer le développement responsable de l'IA.

Lire plus