OmniParser V2: Ferramenta de Análise de Tela para Agentes de GUI Baseados em Visão Pura
2025-02-15
OmniParser é um método abrangente para analisar capturas de tela de interfaces de usuário em elementos estruturados e fáceis de entender, o que melhora significativamente a capacidade do GPT-4V de gerar ações que podem ser precisamente fundamentadas nas regiões correspondentes da interface. O OmniParser V2 recentemente lançado alcança resultados de ponta (39,5% no benchmark Screen Spot Pro) e introduz o OmniTool, permitindo o controle de uma máquina virtual Windows 11 usando o modelo de visão de sua escolha. Instruções de instalação detalhadas e demonstrações são fornecidas, com pesos de modelo disponíveis no Hugging Face.