Le Byte Latent Transformer (BLT) de Meta : surpassant les modèles LLM basés sur les jetons

2024-12-14

Les chercheurs de Meta IA ont présenté le Byte Latent Transformer (BLT), une nouvelle architecture de modèle linguistique de grande taille qui traite les octets directement, au lieu des jetons. Le BLT alloue dynamiquement des ressources de calcul en fonction de l'entropie des octets, ce qui entraîne des améliorations significatives de l'efficacité de l'inférence et de la robustesse par rapport aux modèles basés sur les jetons. Des expériences d'extrapolation jusqu'à 8 milliards de paramètres et 4 téraoctets de données d'entraînement démontrent la capacité du BLT à égaler les performances des modèles LLM basés sur les jetons, tout en offrant des capacités de raisonnement améliorées et une gestion des données à longue traîne. Cette recherche montre la faisabilité d'entraîner des modèles à grande échelle directement sur des octets bruts sans vocabulaire fixe.