DeepSeek-VL2 : Modèles Langue-Vision basés sur un Mélange d'Experts

2025-01-01
DeepSeek-VL2 : Modèles Langue-Vision basés sur un Mélange d'Experts

DeepSeek-VL2 est une série avancée de grands modèles langue-vision basés sur un mélange d'experts (MoE) qui améliorent significativement son prédécesseur. Il excelle dans diverses tâches, notamment la réponse aux questions visuelles, la reconnaissance optique de caractères et la compréhension de documents/tableaux/graphiques. La série comprend trois variantes : DeepSeek-VL2-Tiny, DeepSeek-VL2-Small et DeepSeek-VL2, avec respectivement 1,0 milliard, 2,8 milliards et 4,5 milliards de paramètres activés. DeepSeek-VL2 atteint des performances compétitives ou de pointe avec un nombre de paramètres activés similaire ou inférieur à celui des modèles open source existants. Le projet est open source, offrant des téléchargements de modèles, des guides de démarrage rapide et des exemples de démonstration.