LLMs podem ver e ouvir sem nenhum treinamento

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

LLMs podem ver e ouvir sem nenhum treinamento

2025-04-26

Uma pesquisa inovadora demonstra que os Grandes Modelos de Linguagem (LLMs) podem entender imagens e áudio sem nenhum treinamento adicional. Ao utilizar de forma inteligente LLMs existentes, legendagem de imagens, legendagem de áudio e técnicas de geração de imagens de alta qualidade, os pesquisadores permitiram que os LLMs 'percebessem' imagens e sons. O código e os conjuntos de dados de código aberto do projeto facilitam a reprodutibilidade e explorações adicionais.

(github.com)

Modelo o3 da OpenAI: Um localizador de fotos surreal, distópico e extremamente divertido

A Recessão da Amizade: Uma Crise Cultural e Como Combater