Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

فضيحة معايير قياس الذكاء الاصطناعي: هل قامت شركات التكنولوجيا الكبرى بالتلاعب بـ Chatbot Arena؟

2025-05-01

تتهم ورقة بحثية جديدة من كوهير، ستانفورد، معهد ماساتشوستس للتكنولوجيا، و Ai2 منظمة LM Arena، المسؤولة عن منصة قياس أداء نماذج المحادثة الشهيرة Chatbot Arena، بتفضيل شركات الذكاء الاصطناعي الكبرى بشكل غير عادل، مثل Meta و OpenAI و Google و Amazon. يزعم الباحثون أن هذه الشركات سُمح لها باختبار العديد من متغيرات النماذج بشكل خاص، وقمع النتائج السيئة لتعزيز ترتيبها في لوحة النتائج. وبتحليل أكثر من 2.8 مليون معركة، وجدت الدراسة أدلة على معدلات أخذ عينات مرتفعة، مما أعطى هذه الشركات ميزة غير عادلة. تُنكر LM Arena النتائج، مشيرة إلى وجود عدم دقة، وتخطط لتحسين خوارزمية أخذ العينات، لكنها تنفي التلاعب بالتصنيفات. يثير هذا الجدل مخاوف بشأن الإنصاف والشفافية في قياس أداء نماذج الذكاء الاصطناعي، ويسلط الضوء على الأساليب التنافسية التي تستخدمها شركات التكنولوجيا الكبرى في سباق الذكاء الاصطناعي.