研究人员利用人工智能将录音转换成精确的街景图像
2024-12-08
德克萨斯大学奥斯汀分校的研究人员利用生成式人工智能,将录音中的声音转换成街景图像。这项研究发表在《计算机、环境和城市系统》杂志上,研究团队训练了一个“声景到图像”的AI模型,该模型使用从各种城乡街景收集的音频和视觉数据进行训练,然后用它从录音中生成图像。结果表明,生成的图像在天空、绿地和建筑物的比例方面与真实图像高度相关,人类参与者在匹配音频和图像方面的准确率平均达到80%。这项研究表明,机器可以复制人类在环境的音频和视觉感知之间的联系,人工智能可以扩展到对不同地方人类主观体验的理解。
3
未分类
声景