Détection d'objets Gemini 2.5 : une comparaison surprenante avec YOLOv3 ?

2025-07-10

Ce benchmark teste le modèle linguistique multimodal de grande taille Gemini 2.5 Pro de Google sur la tâche de détection d'objets. En utilisant l'ensemble de données MS-COCO, l'accent est mis sur la précision des bounding boxes. Les résultats montrent que Gemini 2.5 Pro atteint une précision moyenne (mAP) d'environ 0,34, comparable à YOLOv3 de 2018, mais significativement en retrait des modèles de pointe à environ 0,60 mAP. Bien que la polyvalence de Gemini pour les tâches ouvertes soit impressionnante, les CNN restent plus rapides, moins chères et plus faciles à comprendre, surtout avec de bonnes données d'entraînement.

Lire plus

Spegel : Un navigateur terminal utilisant les LLM pour réécrire les pages web

2025-07-02
Spegel : Un navigateur terminal utilisant les LLM pour réécrire les pages web

Spegel est un navigateur web terminal, preuve de concept, qui utilise des LLM pour transformer du HTML en markdown, le rendant directement dans votre terminal. Développé en un week-end, sa praticité a été considérablement améliorée par la sortie du Google Gemini 2.5 Pro Lite plus rapide. Spegel permet des vues personnalisées grâce à des invites personnalisées, comme extraire uniquement les informations essentielles d'une recette. Bien qu'il ne prenne pas en charge les requêtes POST, il simplifie la navigation en se concentrant sur les besoins définis par l'utilisateur, offrant une expérience plus propre et moins encombrée que les navigateurs terminaux traditionnels.

Lire plus