Lumina-DiMOO: Ein revolutionäres Open-Source Multimodales Diffusionsmodell

2025-09-12

Lumina-DiMOO ist ein Open-Source-Basismodell für nahtlose multimodale Generierung und Verständnis. Im Gegensatz zu früheren vereinheitlichten Modellen verwendet es einen vollständig diskreten Diffusionsmodellierungsansatz für alle Eingabe- und Ausgabemodalitäten, was zu einer deutlich höheren Stichprobeneffizienz im Vergleich zu autoregressiven oder hybriden Modellen führt. Es bewältigt gekonnt Aufgaben wie Text-zu-Bild, Bild-zu-Bild-Generierung (einschließlich Bearbeitung, themengesteuerte Generierung und Inpainting) und Bildverständnis und erreicht auf mehreren Benchmarks State-of-the-Art-Leistung. Der Code und die Checkpoints sind öffentlich verfügbar, um die Forschung im Bereich der multimodalen und diskreten Diffusionsmodellierung voranzutreiben.

KI