RT-2: Übertragung von Webwissen auf die Roboterkontrolle durch Vision-Language-Action-Modelle

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

RT-2: Übertragung von Webwissen auf die Roboterkontrolle durch Vision-Language-Action-Modelle

2025-01-01

Forscher von Google DeepMind haben RT-2 entwickelt, ein Modell, das internet-skalierte Vision-Language-Daten zur Steuerung von Robotern nutzt. Durch die Darstellung von Roboteraktionen als Text-Token und das Co-Feintuning von hochmodernen Vision-Language-Modellen mit Robotertrajektoriedaten und internet-skalierten Vision-Language-Aufgaben erreicht RT-2 eine bemerkenswerte Generalisierung. Es versteht komplexe Befehle, führt mehrstufiges semantisches Schlussfolgern durch und verwendet sogar improvisierte Werkzeuge, wie z. B. einen Stein als Hammer. Diese Forschung zeigt das immense Potenzial der Kombination von Fähigkeiten großer Sprachmodelle mit der Roboterkontrolle und markiert einen bedeutenden Fortschritt in der Robotik.

(robotics-transformer2.github.io)

KI Vision-Language-Modell

OpenAI verpasst Frist für Opt-out-Tool für Urheber, was Bedenken hinsichtlich des Urheberrechts verstärkt

Zeitbehandlung in Common Lisp: Die LOCAL-TIME-Lösung