Gemini 2.5の物体検出:YOLOv3と意外なほど互角?

2025-07-10

このベンチマークは、Googleのマルチモーダル大規模言語モデルGemini 2.5 Proの物体検出タスクにおける性能をテストします。MS-COCOデータセットを使用し、バウンディングボックスの精度に焦点を当てています。結果は、Gemini 2.5 Proが平均精度(mAP)約0.34を達成し、2018年のYOLOv3と同等であることを示していますが、最先端モデルの約0.60 mAPにはるかに及びません。オープンエンドタスクにおけるGeminiの汎用性は印象的ですが、CNNは、特に良好なトレーニングデータがあれば、速度、コスト、理解の容易さにおいて依然として優れています。

続きを読む
AI

Spegel:LLMを用いてウェブページを書き換えるターミナルブラウザ

2025-07-02
Spegel:LLMを用いてウェブページを書き換えるターミナルブラウザ

Spegelは、LLMを使用してHTMLをMarkdownに変換し、ターミナルに直接レンダリングする、概念実証型のターミナルウェブブラウザです。週末プロジェクトとして開発され、Googleの高速なGemini 2.5 Pro Liteのリリースにより実用性が大幅に向上しました。Spegelは、カスタムプロンプトを通じてパーソナライズされたビューを可能にし、レシピから重要な情報だけを抽出するなど、ユーザーニーズに合わせた表示を実現します。POSTリクエストはサポートしていませんが、ユーザー定義のニーズに焦点を当てることで、従来のターミナルブラウザよりもクリーンで、整理されたブラウジング体験を提供します。

続きを読む