OmniParser V2:純粋なビジョンベースGUIエージェントのためのスクリーンパースツール

2025-02-15
OmniParser V2:純粋なビジョンベースGUIエージェントのためのスクリーンパースツール

OmniParserは、ユーザーインターフェースのスクリーンショットを構造化され、理解しやすい要素に解析するための包括的な方法であり、GPT-4Vがインターフェースの対応する領域に正確に根拠を置くアクションを生成する能力を大幅に向上させます。最近リリースされたOmniParser V2は、Screen Spot Proベンチマークで最先端の結果(39.5%)を達成し、OmniToolを導入し、選択したビジョンモデルを使用してWindows 11仮想マシンを制御できます。詳細なインストール手順とデモが提供され、モデルの重みはHugging Faceで入手できます。