Janus-Pro-7B : Un modèle unifié de compréhension et de génération multimodale
DeepSeek présente Janus-Pro-7B, un nouveau framework autorégressif qui unifie la compréhension et la génération multimodales. Contrairement aux approches précédentes, Janus-Pro découple intelligemment l'encodage visuel, permettant un traitement efficace au sein d'une seule architecture de transformateur. Ce découplage résout non seulement le conflit entre les rôles de l'encodeur visuel dans la compréhension et la génération, mais améliore également la flexibilité du framework. Janus-Pro surpasse les modèles unifiés précédents et égale ou dépasse les performances des modèles spécifiques à une tâche. Sa simplicité, sa grande flexibilité et son efficacité en font un candidat de choix pour les modèles multimodaux unifiés de nouvelle génération.