Detecção de objetos do Gemini 2.5: Uma comparação surpreendente com o YOLOv3?

2025-07-10

Este benchmark testa o modelo de linguagem grande multimodal Gemini 2.5 Pro do Google em detecção de objetos. Usando o conjunto de dados MS-COCO, o foco está na precisão das bounding boxes. Os resultados mostram que o Gemini 2.5 Pro atinge uma precisão média (mAP) de aproximadamente 0,34, comparável ao YOLOv3 de 2018, mas significativamente atrás dos modelos de última geração em ~0,60 mAP. Embora a versatilidade do Gemini em tarefas abertas seja impressionante, as CNNs permanecem mais rápidas, baratas e fáceis de entender, especialmente com bons dados de treinamento.

Leia mais

Spegel: Navegador de terminal que usa LLMs para reescrever páginas da web

2025-07-02
Spegel: Navegador de terminal que usa LLMs para reescrever páginas da web

Spegel é um navegador da web de terminal de prova de conceito que usa LLMs para transformar HTML em markdown, renderizando-o diretamente em seu terminal. Criado como um projeto de fim de semana, sua praticidade foi significativamente aumentada pelo lançamento do Google Gemini 2.5 Pro Lite mais rápido. O Spegel permite visualizações personalizadas por meio de prompts personalizados, como extrair apenas informações essenciais da receita. Embora não suporte solicitações POST, ele simplifica a navegação, focando nas necessidades definidas pelo usuário, oferecendo uma experiência mais limpa e menos desorganizada do que os navegadores de terminal tradicionais.

Leia mais