LLMs können sehen und hören ohne Training

2025-04-26
LLMs können sehen und hören ohne Training

Diese bahnbrechende Forschung zeigt, dass Large Language Models (LLMs) Bilder und Audio ohne zusätzliches Training verstehen können. Durch die geschickte Nutzung bestehender LLMs, Bildbeschriftung, Audiobeschriftung und hochwertiger Bildgenerierungstechniken ermöglichten die Forscher es LLMs, Bilder und Geräusche zu „wahrnehmen“. Der Open-Source-Code und die Datensätze des Projekts erleichtern die Reproduzierbarkeit und weitere Erforschung.

KI