LLMは、トレーニングなしで画像と音声を認識できる
2025-04-26
画期的な研究により、大規模言語モデル(LLM)は追加のトレーニングなしで画像と音声を理解できることが示されました。既存のLLM、画像キャプション、音声キャプション、高品質な画像生成技術を巧みに活用することで、研究者らはLLMによる画像と音の「知覚」を実現しました。このプロジェクトのオープンソースコードとデータセットにより、再現性とさらなる探求が容易になります。
AI