Chatbot Arena 评比造假?AI 公司暗中操控排名引发争议

2025-05-01
Chatbot Arena 评比造假?AI 公司暗中操控排名引发争议

一篇来自Cohere、斯坦福、MIT和Ai2的研究论文指控流行的AI基准测试平台Chatbot Arena(其背后的组织为LM Arena)偏袒头部AI公司,允许Meta、OpenAI、Google和亚马逊等公司进行秘密测试,并隐瞒低分模型的结果,从而操纵排行榜排名。研究人员分析了超过280万场模型对战,发现这些公司获得了更高的采样率,从而获得了不公平的优势。LM Arena回应称研究存在不准确之处,并表示将改进采样算法,但否认了故意操纵排名的指控。这一事件引发了人们对AI基准测试平台公平性和透明性的担忧,也凸显了大型科技公司在AI竞赛中的竞争策略。