LLMs können sehen und hören ohne Training
2025-04-26
Diese bahnbrechende Forschung zeigt, dass Large Language Models (LLMs) Bilder und Audio ohne zusätzliches Training verstehen können. Durch die geschickte Nutzung bestehender LLMs, Bildbeschriftung, Audiobeschriftung und hochwertiger Bildgenerierungstechniken ermöglichten die Forscher es LLMs, Bilder und Geräusche zu „wahrnehmen“. Der Open-Source-Code und die Datensätze des Projekts erleichtern die Reproduzierbarkeit und weitere Erforschung.
KI