Gemini 2.5目标检测能力测试:与YOLOv3不相上下?

2025-07-10

本文对谷歌Gemini 2.5 Pro的多模态大语言模型在目标检测任务上的性能进行了基准测试。实验使用MS-COCO数据集,重点评估其边界框的准确性。结果显示,Gemini 2.5 Pro的平均精度(mAP)约为0.34,与2018年的YOLOv3相当,但远低于最先进模型的0.60 mAP。虽然Gemini在处理开放式任务上的多功能性令人印象深刻,但CNN在速度、成本和可解释性方面仍具有优势。

阅读更多
AI mAP

Spegel:用LLM重写网页的终端浏览器

2025-07-02
Spegel:用LLM重写网页的终端浏览器

Spegel是一个概念验证项目,它是一个终端浏览器,能够将HTML网页内容通过大型语言模型(LLM)处理,并以Markdown格式直接在终端渲染。开发者利用周末时间完成,并借助Gemini 2.5 Pro Lite的快速推理能力提升了实用性。Spegel允许用户自定义提示词,个性化地浏览网页内容,例如提取食谱的关键信息。它虽然不支持POST请求,但通过处理提示词和视图,提供了更简洁、更符合用户需求的浏览体验。

阅读更多