Détection d'objets Gemini 2.5 : une comparaison surprenante avec YOLOv3 ?

2025-07-10

Ce benchmark teste le modèle linguistique multimodal de grande taille Gemini 2.5 Pro de Google sur la tâche de détection d'objets. En utilisant l'ensemble de données MS-COCO, l'accent est mis sur la précision des bounding boxes. Les résultats montrent que Gemini 2.5 Pro atteint une précision moyenne (mAP) d'environ 0,34, comparable à YOLOv3 de 2018, mais significativement en retrait des modèles de pointe à environ 0,60 mAP. Bien que la polyvalence de Gemini pour les tâches ouvertes soit impressionnante, les CNN restent plus rapides, moins chères et plus faciles à comprendre, surtout avec de bonnes données d'entraînement.