BD3-LMs: Modelos de Lenguaje de Difusión Discreta por Bloques: Generación de Texto Más Rápida y Eficiente
2025-05-08
Los BD3-LMs combinan inteligentemente los paradigmas de modelos autoregresivos y de difusión. Al modelar bloques de tokens de forma autoregresiva y luego aplicar la difusión dentro de cada bloque, se logran altas verosimilitudes y generación de longitud flexible, manteniendo las ventajas de velocidad y paralelización de los modelos de difusión. Algoritmos eficientes de entrenamiento y muestreo, que requieren solo dos pasadas hacia adelante, mejoran aún más el rendimiento, lo que lo convierte en un enfoque prometedor para la generación de texto a gran escala.