OmniParser V2: 순수 비전 기반 GUI 에이전트를 위한 화면 파싱 도구
2025-02-15
OmniParser는 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 파싱하는 포괄적인 방법으로, GPT-4V가 인터페이스의 해당 영역에 정확하게 근거한 동작을 생성하는 기능을 크게 향상시킵니다. 최근에 출시된 OmniParser V2는 Screen Spot Pro 벤치마크에서 최첨단 결과(39.5%)를 달성했으며, OmniTool을 도입하여 선택한 비전 모델을 사용하여 Windows 11 가상 머신을 제어할 수 있습니다. 자세한 설치 지침과 데모가 제공되며, 모델 가중치는 Hugging Face에서 이용할 수 있습니다.