Lumina-DiMOO : Un modèle de diffusion multimodal révolutionnaire et open source
Lumina-DiMOO est un modèle fondamental open source pour la génération et la compréhension multimodales transparentes. Contrairement aux modèles unifiés précédents, il utilise une approche de modélisation de diffusion entièrement discrète pour toutes les modalités d'entrée et de sortie, ce qui entraîne une efficacité d'échantillonnage significativement plus élevée par rapport aux modèles autorégressifs ou hybrides. Il gère habilement des tâches telles que la génération texte-image, la génération image-image (y compris l'édition, la génération dirigée par le sujet et la peinture), et la compréhension d'images, atteignant des performances de pointe sur plusieurs benchmarks. Le code et les points de contrôle sont disponibles publiquement pour faire progresser la recherche en modélisation de diffusion multimodale et discrète.
Lire plus