Detección de objetos de Gemini 2.5: ¿Una comparación sorprendente con YOLOv3?
Este benchmark prueba el modelo de lenguaje grande multimodal Gemini 2.5 Pro de Google en la detección de objetos. Usando el conjunto de datos MS-COCO, el enfoque está en la precisión de los cuadros delimitadores. Los resultados muestran que Gemini 2.5 Pro alcanza una precisión media (mAP) de aproximadamente 0,34, comparable a YOLOv3 de 2018, pero significativamente por detrás de los modelos de última generación en ~0,60 mAP. Si bien la versatilidad de Gemini en tareas abiertas es impresionante, las CNN siguen siendo más rápidas, económicas y fáciles de razonar, especialmente con buenos datos de entrenamiento.
Leer más