LLaDA: Ein neues Paradigma für große Sprachmodelle basierend auf Diffusionsmodellen

2025-02-20
LLaDA: Ein neues Paradigma für große Sprachmodelle basierend auf Diffusionsmodellen

LLaDA (Large Language Diffusion with Masking) ist ein neues Paradigma für große Sprachmodelle, das auf maskierten Diffusionsmodellen basiert und die vorherrschende Ansicht in Frage stellt, dass bestehende große Sprachmodelle auf autoregressiven Mechanismen beruhen. LLaDA approximiert die wahre Sprachverteilung durch Maximum-Likelihood-Schätzung; seine bemerkenswerten Fähigkeiten resultieren nicht aus dem autoregressiven Mechanismus selbst, sondern aus dem Kernprinzip des generativen Modellierens. Untersuchungen zeigen, dass LLaDA eine wettbewerbsfähige Skalierbarkeit im Vergleich zu autoregressiven Baseline-Modellen auf denselben Daten aufweist, wobei Pretraining und Supervised Fine-Tuning mit maskierter Diffusion und Textgenerierung über Diffusionsabtastung erfolgen.

Mehr lesen