LLMは、トレーニングなしで画像と音声を認識できる

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

LLMは、トレーニングなしで画像と音声を認識できる

2025-04-26

画期的な研究により、大規模言語モデル（LLM）は追加のトレーニングなしで画像と音声を理解できることが示されました。既存のLLM、画像キャプション、音声キャプション、高品質な画像生成技術を巧みに活用することで、研究者らはLLMによる画像と音の「知覚」を実現しました。このプロジェクトのオープンソースコードとデータセットにより、再現性とさらなる探求が容易になります。

(github.com)

OpenAIのo3モデル：シュールでディストピア的な、そして驚くほど面白い写真の位置特定

友情不況：文化危機と克服策