Roboterprobleme durch das Anschauen von 1 Million Stunden YouTube-Videos gelöst
Forscher haben durch das Trainieren eines Modells namens V-JEPA 2 mit einer Million Stunden YouTube-Videos versehentlich ein langjähriges Problem in der Robotik gelöst. Anstatt das nächste Wort vorherzusagen, sagt V-JEPA 2 den nächsten Moment in der Realität voraus und lernt so, Physik durch Beobachtung zu verstehen. Im Gegensatz zu früheren sprachbasierten Modellen zeigt V-JEPA 2 eine beeindruckende Zero-Shot-Generalisierung und erledigt erfolgreich komplexe Aufgaben wie das Greifen und Platzieren von Objekten in unbekannten Umgebungen. Obwohl Einschränkungen wie die Empfindlichkeit gegenüber der Kameraplatzierung und die Drift über lange Zeiträume bestehen bleiben, eröffnet diese Forschung neue Wege für die Robotik und deutet auf eine Zukunft hin, in der Roboter ein vergleichbares Verständnis wie ChatGPT besitzen könnten.
Mehr lesen