BD3-LMs: Block-basierte diskrete Rauschentfernungs-Diffusions-Sprachmodelle – Schnellere und effizientere Textgenerierung
2025-05-08
BD3-LMs kombinieren geschickt die Paradigmen autoregressiver und Diffusionsmodelle. Durch die autoregressive Modellierung von Token-Blöcken und die anschließende Anwendung der Diffusion innerhalb jedes Blocks werden sowohl hohe Wahrscheinlichkeiten als auch eine flexible Längen-Generierung erreicht, während die Geschwindigkeits- und Parallelisierungsvorteile von Diffusionsmodellen erhalten bleiben. Effiziente Trainings- und Sampling-Algorithmen, die nur zwei Vorwärtsdurchläufe erfordern, verbessern die Leistung weiter und machen sie zu einem vielversprechenden Ansatz für die großskalige Textgenerierung.