Gemini 2.5 Objekterkennung: Überraschend gut im Vergleich zu YOLOv3?
Dieser Benchmark testet Googles großes multimodales Sprachmodell Gemini 2.5 Pro in der Objekterkennung. Mit dem MS-COCO-Datensatz liegt der Fokus auf der Genauigkeit der Bounding Boxes. Die Ergebnisse zeigen, dass Gemini 2.5 Pro einen mittleren Durchschnitt der Präzision (mAP) von ungefähr 0,34 erreicht, vergleichbar mit YOLOv3 aus dem Jahr 2018, aber deutlich hinter den aktuellen Top-Modellen mit ~0,60 mAP zurückliegt. Obwohl Geminis Vielseitigkeit bei offenen Aufgaben beeindruckend ist, bleiben CNNs schneller, günstiger und leichter zu verstehen, besonders mit guten Trainingsdaten.
Mehr lesen