LLaDA : Un nouveau paradigme de modèle linguistique de grande taille basé sur les modèles de diffusion
LLaDA (Large Language Diffusion with mAsking) est un nouveau paradigme de modèle linguistique de grande taille basé sur des modèles de diffusion masqués, remettant en question l'idée dominante selon laquelle les modèles linguistiques de grande taille existants reposent sur des mécanismes autorégressifs. LLaDA approche la véritable distribution linguistique par estimation du maximum de vraisemblance ; ses capacités remarquables ne proviennent pas du mécanisme autorégressif lui-même, mais du principe fondamental de la modélisation générative. Des recherches montrent que LLaDA présente une évolutivité compétitive par rapport aux modèles de référence autorégressifs sur les mêmes données, avec un pré-entraînement et un réglage fin supervisé utilisant la diffusion masquée et la génération de texte via l'échantillonnage de diffusion.