OmniParser V2 : Outil d’analyse d’écran pour agent d’interface graphique basé sur la vision pure

2025-02-15
OmniParser V2 : Outil d’analyse d’écran pour agent d’interface graphique basé sur la vision pure

OmniParser est une méthode complète pour analyser les captures d’écran d’interfaces utilisateur en éléments structurés et faciles à comprendre, ce qui améliore considérablement la capacité de GPT-4V à générer des actions précisément ancrées dans les régions correspondantes de l’interface. La version 2 d’OmniParser, récemment lancée, atteint des résultats de pointe (39,5 % sur le benchmark Screen Spot Pro) et introduit OmniTool, permettant de contrôler une machine virtuelle Windows 11 à l’aide du modèle de vision de votre choix. Des instructions d’installation détaillées et des démonstrations sont fournies, avec des poids de modèle disponibles sur Hugging Face.