OmniParser V2: أداة تحليل الشاشة لوكلاء واجهة المستخدم الرسومية القائمة على الرؤية الخالصة
2025-02-15
OmniParser هي طريقة شاملة لتحليل لقطات شاشة واجهة المستخدم إلى عناصر منظمة وسهلة الفهم، مما يعزز بشكل كبير قدرة GPT-4V على توليد إجراءات يمكن ربطها بدقة بالمناطق المقابلة من الواجهة. حقق إصدار OmniParser V2 الذي تم إصداره مؤخراً نتائج متقدمة (39.5% في معيار Screen Spot Pro) ويقدم OmniTool، والذي يسمح بالتحكم في جهاز افتراضي يعمل بنظام Windows 11 باستخدام نموذج الرؤية الذي تختاره. تتوفر تعليمات التثبيت التفصيلية والعروض التوضيحية، مع توفر أوزان النموذج على Hugging Face.