La leçon amère frappe la tokenisation : une nouvelle ère pour les LLM ?

Cet article explore le problème omniprésent de la « tokenisation » dans les grands modèles de langage (LLM) et examine les solutions possibles. Les méthodes de tokenisation traditionnelles, telles que l’encodage Byte-Pair (BPE), bien qu’efficaces pour compresser les vocabulaires, limitent l’expressivité du modèle et engendrent divers problèmes en aval. L’article analyse plusieurs architectures qui tentent de contourner la tokenisation, notamment ByT5, MambaByte et Hourglass Transformers, en se concentrant sur le Byte Latent Transformer (BLT) récemment apparu. Le BLT partitionne dynamiquement les séquences d’octets, combinant des encodeurs locaux et un transformateur global pour obtenir de meilleures performances et une meilleure évolutivité que les modèles traditionnels dans des environnements aux ressources informatiques limitées, excellant particulièrement dans les tâches au niveau des caractères. Bien que le BLT rencontre des défis, cette recherche ouvre une nouvelle voie pour le développement des LLM, inaugurant potentiellement une ère sans tokenisation.