El Byte Latent Transformer (BLT) de Meta: superando a los LLMs basados en tokens
Investigadores de Meta IA presentaron el Byte Latent Transformer (BLT), una nueva arquitectura de modelo de lenguaje grande que procesa bytes directamente, en lugar de tokens. BLT asigna dinámicamente recursos computacionales según la entropía de los bytes, lo que resulta en mejoras significativas en la eficiencia de inferencia y la robustez en comparación con los modelos basados en tokens. Experimentos de escalado hasta 8 mil millones de parámetros y 4 terabytes de datos de entrenamiento demuestran la capacidad de BLT para igualar el rendimiento de los LLMs basados en tokens, ofreciendo capacidades de razonamiento mejoradas y manejo de datos de cola larga. Esta investigación muestra la viabilidad de entrenar modelos a gran escala directamente en bytes sin un vocabulario fijo.