Escândalo de Benchmarking de IA: As Grandes Empresas de Tecnologia Manipularam o Chatbot Arena?

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-05-01

Um novo artigo da Cohere, Stanford, MIT e Ai2 acusa a LM Arena, a organização por trás do popular benchmark Chatbot Arena, de favorecer injustamente grandes empresas de IA como Meta, OpenAI, Google e Amazon. Os pesquisadores alegam que essas empresas tiveram permissão para testar variantes de modelos em particular, suprimindo resultados de baixo desempenho para impulsionar suas classificações no ranking. Analisando mais de 2,8 milhões de batalhas, o estudo encontrou evidências de taxas de amostragem aumentadas, dando a essas empresas uma vantagem injusta. A LM Arena contesta as descobertas, citando imprecisões, e planeja melhorar seu algoritmo de amostragem, mas nega a manipulação de classificações. A controvérsia levanta preocupações sobre a justiça e a transparência no benchmarking de IA e destaca as táticas competitivas empregadas por grandes empresas de tecnologia na corrida da IA.