Janus-Pro-7B: Un Modelo Unificado de Comprensión y Generación Multimodal

2025-01-27
Janus-Pro-7B: Un Modelo Unificado de Comprensión y Generación Multimodal

DeepSeek presenta Janus-Pro-7B, un nuevo marco autorregresivo que unifica la comprensión y la generación multimodal. A diferencia de los enfoques anteriores, Janus-Pro desacopla inteligentemente la codificación visual, permitiendo un procesamiento eficiente dentro de una única arquitectura de transformador. Este desacoplamiento no solo resuelve el conflicto entre los roles del codificador visual en la comprensión y la generación, sino que también mejora la flexibilidad del marco. Janus-Pro supera a los modelos unificados anteriores e iguala o supera el rendimiento de los modelos específicos de la tarea. Su simplicidad, alta flexibilidad y eficacia lo convierten en un fuerte candidato para los modelos multimodales unificados de próxima generación.

IA