LLMs können sehen und hören ohne Training

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

LLMs können sehen und hören ohne Training

2025-04-26

Diese bahnbrechende Forschung zeigt, dass Large Language Models (LLMs) Bilder und Audio ohne zusätzliches Training verstehen können. Durch die geschickte Nutzung bestehender LLMs, Bildbeschriftung, Audiobeschriftung und hochwertiger Bildgenerierungstechniken ermöglichten die Forscher es LLMs, Bilder und Geräusche zu „wahrnehmen“. Der Open-Source-Code und die Datensätze des Projekts erleichtern die Reproduzierbarkeit und weitere Erforschung.

(github.com)

OpenAIs o3 Modell: Ein surrealer, dystopischer und unglaublich unterhaltsamer Foto-Standort-Errater

Die Freundschaftsrezession: Eine kulturelle Krise und wie man sie bekämpft