Los LLMs pueden ver y oír sin entrenamiento

2025-04-26
Los LLMs pueden ver y oír sin entrenamiento

Esta investigación innovadora demuestra que los Modelos de Lenguaje Grandes (LLMs) pueden comprender imágenes y audio sin entrenamiento adicional. Al aprovechar inteligentemente los LLMs existentes, el subtitulado de imágenes, el subtitulado de audio y las técnicas de generación de imágenes de alta calidad, los investigadores permitieron que los LLMs 'perciban' imágenes y sonidos. El código y los conjuntos de datos de código abierto del proyecto facilitan la reproducibilidad y futuras exploraciones.

IA