Alibaba dévoile QvQ : un nouveau modèle de raisonnement visuel

2024-12-25

Alibaba a récemment publié QvQ-72B-Preview, un nouveau modèle de raisonnement visuel sous licence Apache 2.0. Conçu pour améliorer les capacités de raisonnement visuel de l'IA, QvQ s'appuie sur le modèle d'inférence à mise à l'échelle QwQ en ajoutant le traitement d'images. Il accepte les images et les invites, générant des processus de raisonnement détaillés et étape par étape. Le blogueur Simon Willison a testé QvQ, le trouvant efficace pour des tâches comme compter les pélicans, mais moins précis sur des problèmes de raisonnement complexes. Actuellement disponible sur Hugging Face Spaces, les projets futurs incluent le déploiement local et une prise en charge plus large des plateformes.