Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

El Byte Latent Transformer (BLT) de Meta: superando a los LLMs basados en tokens

2024-12-14

Investigadores de Meta IA presentaron el Byte Latent Transformer (BLT), una nueva arquitectura de modelo de lenguaje grande que procesa bytes directamente, en lugar de tokens. BLT asigna dinámicamente recursos computacionales según la entropía de los bytes, lo que resulta en mejoras significativas en la eficiencia de inferencia y la robustez en comparación con los modelos basados en tokens. Experimentos de escalado hasta 8 mil millones de parámetros y 4 terabytes de datos de entrenamiento demuestran la capacidad de BLT para igualar el rendimiento de los LLMs basados en tokens, ofreciendo capacidades de razonamiento mejoradas y manejo de datos de cola larga. Esta investigación muestra la viabilidad de entrenar modelos a gran escala directamente en bytes sin un vocabulario fijo.

(ai.meta.com)

IA Modelo de Lenguaje Grande Codificación a nivel de byte Eficiencia de inferencia