OmniParser V2: Bildschirm-Parsing-Tool für rein visuell basierte GUI-Agenten
2025-02-15
OmniParser ist eine umfassende Methode zum Parsen von Screenshots von Benutzeroberflächen in strukturierte und leicht verständliche Elemente, was die Fähigkeit von GPT-4V, Aktionen zu generieren, die genau in den entsprechenden Bereichen der Benutzeroberfläche verankert sind, deutlich verbessert. Die kürzlich veröffentlichte Version OmniParser V2 erreicht State-of-the-Art-Ergebnisse (39,5 % auf dem neuen Screen Spot Pro-Benchmark) und führt OmniTool ein, mit dem eine Windows 11-VM mit dem visuellen Modell Ihrer Wahl gesteuert werden kann. Detaillierte Installationsanweisungen und Demos werden bereitgestellt, wobei Modellgewichte auf Hugging Face verfügbar sind.