LLaDA: Un Nuevo Paradigma de Modelo de Lenguaje Grande Basado en Modelos de Difusión

2025-02-20
LLaDA: Un Nuevo Paradigma de Modelo de Lenguaje Grande Basado en Modelos de Difusión

LLaDA (Large Language Diffusion with mAsking) es un nuevo paradigma de modelo de lenguaje grande basado en modelos de difusión enmascarados, desafiando la visión predominante de que los modelos de lenguaje grande existentes dependen de mecanismos autoregresivos. LLaDA aproxima la verdadera distribución del lenguaje mediante la estimación de máxima verosimilitud; sus capacidades notables no derivan del mecanismo autoregresivo en sí, sino del principio central del modelado generativo. Las investigaciones muestran que LLaDA presenta una escalabilidad competitiva en comparación con los modelos de base autoregresivos en los mismos datos, con preentrenamiento y ajuste fino supervisado utilizando difusión enmascarada y generación de texto mediante muestreo de difusión.

IA