RT-2: Übertragung von Webwissen auf die Roboterkontrolle durch Vision-Language-Action-Modelle
2025-01-01
Forscher von Google DeepMind haben RT-2 entwickelt, ein Modell, das internet-skalierte Vision-Language-Daten zur Steuerung von Robotern nutzt. Durch die Darstellung von Roboteraktionen als Text-Token und das Co-Feintuning von hochmodernen Vision-Language-Modellen mit Robotertrajektoriedaten und internet-skalierten Vision-Language-Aufgaben erreicht RT-2 eine bemerkenswerte Generalisierung. Es versteht komplexe Befehle, führt mehrstufiges semantisches Schlussfolgern durch und verwendet sogar improvisierte Werkzeuge, wie z. B. einen Stein als Hammer. Diese Forschung zeigt das immense Potenzial der Kombination von Fähigkeiten großer Sprachmodelle mit der Roboterkontrolle und markiert einen bedeutenden Fortschritt in der Robotik.