Janus-Pro-7B: Um Modelo Unificado de Compreensão e Geração Multimodal

2025-01-27
Janus-Pro-7B: Um Modelo Unificado de Compreensão e Geração Multimodal

A DeepSeek apresenta o Janus-Pro-7B, uma nova estrutura auto-regressiva que unifica a compreensão e a geração multimodais. Ao contrário das abordagens anteriores, o Janus-Pro desacopla inteligentemente a codificação visual, permitindo o processamento eficiente em uma única arquitetura de transformador. Esse desacoplamento não apenas resolve o conflito entre os papéis do codificador visual na compreensão e geração, mas também melhora a flexibilidade da estrutura. O Janus-Pro supera os modelos unificados anteriores e iguala ou excede o desempenho de modelos específicos de tarefas. Sua simplicidade, alta flexibilidade e eficácia o tornam um forte candidato para modelos multimodais unificados de próxima geração.

IA