AIベンチマークスキャンダル:大手テック企業がChatbot Arenaを操作したか?

2025-05-01
AIベンチマークスキャンダル:大手テック企業がChatbot Arenaを操作したか?

Cohere、スタンフォード大学、MIT、Ai2による新たな論文で、人気のAIベンチマークChatbot Arenaを運営するLM Arenaが、Meta、OpenAI、Google、Amazonなどの大手AI企業を不当に優遇したと非難されています。研究者らは、これらの企業が複数のモデルバリアントを非公開でテストし、低パフォーマンスの結果を抑制してランキングを上げることを許容されたと主張しています。280万件以上の対戦を分析した結果、これらの企業に不公平な優位性を与えたサンプリングレートの増加の証拠が見つかりました。LM Arenaは、不正確さを理由にこの調査結果を異議申し立て、サンプリングアルゴリズムの改善を計画していますが、ランキングの操作を否定しています。この論争は、AIベンチマークにおける公平性と透明性に関する懸念を引き起こし、AI競争における大手テクノロジー企業の競争戦略を浮き彫りにしています。