LLMs podem ver e ouvir sem nenhum treinamento

2025-04-26
LLMs podem ver e ouvir sem nenhum treinamento

Uma pesquisa inovadora demonstra que os Grandes Modelos de Linguagem (LLMs) podem entender imagens e áudio sem nenhum treinamento adicional. Ao utilizar de forma inteligente LLMs existentes, legendagem de imagens, legendagem de áudio e técnicas de geração de imagens de alta qualidade, os pesquisadores permitiram que os LLMs 'percebessem' imagens e sons. O código e os conjuntos de dados de código aberto do projeto facilitam a reprodutibilidade e explorações adicionais.

IA