El Byte Latent Transformer (BLT) de Meta: superando a los LLMs basados en tokens

2024-12-14

Investigadores de Meta IA presentaron el Byte Latent Transformer (BLT), una nueva arquitectura de modelo de lenguaje grande que procesa bytes directamente, en lugar de tokens. BLT asigna dinámicamente recursos computacionales según la entropía de los bytes, lo que resulta en mejoras significativas en la eficiencia de inferencia y la robustez en comparación con los modelos basados en tokens. Experimentos de escalado hasta 8 mil millones de parámetros y 4 terabytes de datos de entrenamiento demuestran la capacidad de BLT para igualar el rendimiento de los LLMs basados en tokens, ofreciendo capacidades de razonamiento mejoradas y manejo de datos de cola larga. Esta investigación muestra la viabilidad de entrenar modelos a gran escala directamente en bytes sin un vocabulario fijo.

Leer más

Meta FAIR presenta investigaciones innovadoras en IA y modelos de código abierto

2024-12-13

Meta FAIR ha lanzado una serie de artefactos de investigación de IA innovadores, incluyendo Meta Motivo, un modelo fundamental para controlar agentes corporizados virtuales, y Meta Video Seal, un modelo de código abierto para marcas de agua en vídeo. Este lanzamiento se centra en los avances en las capacidades de los agentes, la robustez, la seguridad y las innovaciones arquitectónicas para un aprendizaje más eficiente. Otras contribuciones clave incluyen la base de código Flow Matching, Meta Explore Theory-of-Mind para el razonamiento sobre la teoría de la mente, los modelos de concepto amplio (LCM) y el Dynamic Byte Latent Transformer. Al liberar estos modelos y herramientas de código abierto, Meta pretende fomentar la colaboración y acelerar el desarrollo responsable de la IA.

Leer más