Gemini 2.5 Objekterkennung: Überraschend gut im Vergleich zu YOLOv3?

2025-07-10

Dieser Benchmark testet Googles großes multimodales Sprachmodell Gemini 2.5 Pro in der Objekterkennung. Mit dem MS-COCO-Datensatz liegt der Fokus auf der Genauigkeit der Bounding Boxes. Die Ergebnisse zeigen, dass Gemini 2.5 Pro einen mittleren Durchschnitt der Präzision (mAP) von ungefähr 0,34 erreicht, vergleichbar mit YOLOv3 aus dem Jahr 2018, aber deutlich hinter den aktuellen Top-Modellen mit ~0,60 mAP zurückliegt. Obwohl Geminis Vielseitigkeit bei offenen Aufgaben beeindruckend ist, bleiben CNNs schneller, günstiger und leichter zu verstehen, besonders mit guten Trainingsdaten.

Mehr lesen
KI

Spegel: Ein Terminal-Browser, der LLMs verwendet, um Webseiten umzuschreiben

2025-07-02
Spegel: Ein Terminal-Browser, der LLMs verwendet, um Webseiten umzuschreiben

Spegel ist ein Terminal-Browser als Proof-of-Concept, der LLMs verwendet, um HTML in Markdown umzuwandeln und direkt in Ihrem Terminal zu rendern. Als Wochenendprojekt entwickelt, wurde seine Praktikabilität durch die Veröffentlichung des schnelleren Google Gemini 2.5 Pro Lite deutlich verbessert. Spegel ermöglicht personalisierte Ansichten durch benutzerdefinierte Eingabeaufforderungen, z. B. das Extrahieren nur der wesentlichen Informationen eines Rezepts. Obwohl keine POST-Anforderungen unterstützt werden, vereinfacht es das Browsen, indem es sich auf die vom Benutzer definierten Bedürfnisse konzentriert und eine sauberere und weniger überladene Erfahrung als herkömmliche Terminal-Browser bietet.

Mehr lesen