Detecção de objetos do Gemini 2.5: Uma comparação surpreendente com o YOLOv3?
2025-07-10
Este benchmark testa o modelo de linguagem grande multimodal Gemini 2.5 Pro do Google em detecção de objetos. Usando o conjunto de dados MS-COCO, o foco está na precisão das bounding boxes. Os resultados mostram que o Gemini 2.5 Pro atinge uma precisão média (mAP) de aproximadamente 0,34, comparável ao YOLOv3 de 2018, mas significativamente atrás dos modelos de última geração em ~0,60 mAP. Embora a versatilidade do Gemini em tarefas abertas seja impressionante, as CNNs permanecem mais rápidas, baratas e fáceis de entender, especialmente com bons dados de treinamento.