Scandale de benchmarking de l'IA : les grandes entreprises technologiques ont-elles truqué Chatbot Arena ?

2025-05-01
Scandale de benchmarking de l'IA : les grandes entreprises technologiques ont-elles truqué Chatbot Arena ?

Un nouvel article de Cohere, Stanford, MIT et Ai2 accuse LM Arena, l’organisation à l’origine du populaire benchmark Chatbot Arena, d’avoir favorisé injustement les grandes entreprises d’IA telles que Meta, OpenAI, Google et Amazon. Les chercheurs affirment que ces entreprises ont été autorisées à tester des variantes de modèles en privé, en supprimant les résultats médiocres pour améliorer leur classement au palmarès. En analysant plus de 2,8 millions de combats, l’étude a révélé des preuves de taux d’échantillonnage accrus, donnant à ces entreprises un avantage injuste. LM Arena conteste les conclusions, invoquant des inexactitudes, et prévoit d’améliorer son algorithme d’échantillonnage, mais nie avoir manipulé les classements. Cette controverse soulève des inquiétudes concernant l’équité et la transparence du benchmarking de l’IA et met en lumière les tactiques concurrentielles employées par les grandes entreprises technologiques dans la course à l’IA.