Les LLMs peuvent voir et entendre sans aucun entraînement
2025-04-26
Cette recherche révolutionnaire démontre que les grands modèles de langage (LLMs) peuvent comprendre les images et l'audio sans aucun entraînement supplémentaire. En utilisant intelligemment les LLMs existants, le sous-titrage d'images, le sous-titrage audio et des techniques de génération d'images de haute qualité, les chercheurs ont permis aux LLMs de 'percevoir' les images et les sons. Le code et les ensembles de données open source du projet facilitent la reproductibilité et les explorations futures.
IA