无需训练，大型语言模型即可感知图像和声音

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-04-26

一项令人惊叹的研究表明，大型语言模型（LLM）无需任何额外训练即可理解图像和音频。研究人员通过巧妙的设计，利用现有的LLM模型结合图像字幕、音频字幕和高质量图像生成技术，实现了LLM对图像和声音的“感知”。该项目开源了代码和数据集，方便研究人员复现和进一步探索。

(github.com)