Los LLMs pueden ver y oír sin entrenamiento

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Los LLMs pueden ver y oír sin entrenamiento

2025-04-26

Esta investigación innovadora demuestra que los Modelos de Lenguaje Grandes (LLMs) pueden comprender imágenes y audio sin entrenamiento adicional. Al aprovechar inteligentemente los LLMs existentes, el subtitulado de imágenes, el subtitulado de audio y las técnicas de generación de imágenes de alta calidad, los investigadores permitieron que los LLMs 'perciban' imágenes y sonidos. El código y los conjuntos de datos de código abierto del proyecto facilitan la reproducibilidad y futuras exploraciones.

(github.com)

Modelo o3 de OpenAI: Un localizador de fotos surreal, distópico y tremendamente entretenido

La Recesión de la Amistad: Una Crisis Cultural y Cómo Combatirla