Les LLMs peuvent voir et entendre sans aucun entraînement

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Les LLMs peuvent voir et entendre sans aucun entraînement

2025-04-26

Cette recherche révolutionnaire démontre que les grands modèles de langage (LLMs) peuvent comprendre les images et l'audio sans aucun entraînement supplémentaire. En utilisant intelligemment les LLMs existants, le sous-titrage d'images, le sous-titrage audio et des techniques de génération d'images de haute qualité, les chercheurs ont permis aux LLMs de 'percevoir' les images et les sons. Le code et les ensembles de données open source du projet facilitent la reproductibilité et les explorations futures.

(github.com)

Le modèle o3 d'OpenAI : un localisateur de photos surréaliste, dystopique et incroyablement divertissant

La Récession de l'Amitié : Une Crise Culturelle et Comment la Combattre