Escándalo de evaluación comparativa de IA: ¿Las grandes tecnológicas manipularon Chatbot Arena?
Un nuevo artículo de Cohere, Stanford, MIT y Ai2 acusa a LM Arena, la organización detrás del popular punto de referencia Chatbot Arena, de favorecer injustamente a las grandes empresas de IA como Meta, OpenAI, Google y Amazon. Los investigadores alegan que a estas empresas se les permitió probar variantes de modelos de forma privada, suprimiendo los resultados de bajo rendimiento para mejorar sus clasificaciones en la tabla de clasificación. Al analizar más de 2,8 millones de batallas, el estudio encontró evidencia de tasas de muestreo aumentadas que otorgan a estas empresas una ventaja injusta. LM Arena cuestiona los hallazgos, citando imprecisiones, y planea mejorar su algoritmo de muestreo, pero niega la manipulación de las clasificaciones. La controversia genera preocupaciones sobre la equidad y la transparencia en la evaluación comparativa de IA y destaca las tácticas competitivas empleadas por las grandes empresas tecnológicas en la carrera de la IA.