Detección de objetos de Gemini 2.5: ¿Una comparación sorprendente con YOLOv3?

2025-07-10

Este benchmark prueba el modelo de lenguaje grande multimodal Gemini 2.5 Pro de Google en la detección de objetos. Usando el conjunto de datos MS-COCO, el enfoque está en la precisión de los cuadros delimitadores. Los resultados muestran que Gemini 2.5 Pro alcanza una precisión media (mAP) de aproximadamente 0,34, comparable a YOLOv3 de 2018, pero significativamente por detrás de los modelos de última generación en ~0,60 mAP. Si bien la versatilidad de Gemini en tareas abiertas es impresionante, las CNN siguen siendo más rápidas, económicas y fáciles de razonar, especialmente con buenos datos de entrenamiento.

Leer más

Spegel: Un navegador de terminal que usa LLM para reescribir páginas web

2025-07-02
Spegel: Un navegador de terminal que usa LLM para reescribir páginas web

Spegel es un navegador web de terminal de prueba de concepto que utiliza LLMs para transformar HTML en Markdown, renderizándolo directamente en tu terminal. Creado como un proyecto de fin de semana, su practicidad se vio significativamente mejorada con el lanzamiento del Google Gemini 2.5 Pro Lite más rápido. Spegel permite vistas personalizadas a través de indicaciones personalizadas, como extraer solo la información esencial de una receta. Si bien no admite solicitudes POST, simplifica la navegación al centrarse en las necesidades definidas por el usuario, ofreciendo una experiencia más limpia y menos desordenada que los navegadores de terminal tradicionales.

Leer más