OmniParser V2: Herramienta de análisis de pantalla para agentes de GUI basados en visión pura
2025-02-15
OmniParser es un método completo para analizar capturas de pantalla de interfaces de usuario en elementos estructurados y fáciles de entender, lo que mejora significativamente la capacidad de GPT-4V para generar acciones que se pueden basar con precisión en las regiones correspondientes de la interfaz. El OmniParser V2 recientemente lanzado alcanza resultados de vanguardia (39,5% en el benchmark Screen Spot Pro) e introduce OmniTool, que permite controlar una máquina virtual Windows 11 utilizando el modelo de visión que elijas. Se proporcionan instrucciones de instalación detalladas y demostraciones, con pesos de modelo disponibles en Hugging Face.