LLaDA: Um Novo Paradigma de Modelo de Linguagem Grande Baseado em Modelos de Difusão
2025-02-20

LLaDA (Large Language Diffusion with mAsking) é um novo paradigma de modelo de linguagem grande baseado em modelos de difusão mascarados, desafiando a visão predominante de que os LLMs existentes dependem de mecanismos autoregressivos. A LLaDA aproxima a verdadeira distribuição de linguagem por meio da estimativa de máxima verossimilhança; suas capacidades notáveis não derivam do mecanismo autoregressivo em si, mas do princípio central da modelagem generativa. Pesquisas mostram que a LLaDA apresenta escalabilidade competitiva em comparação com modelos de base autoregressivos nos mesmos dados, com pré-treinamento e ajuste fino supervisionado usando difusão mascarada e geração de texto por meio de amostragem de difusão.