AI 벤치마킹 스캔들: 빅테크 기업들이 Chatbot Arena를 조작했나?

2025-05-01
AI 벤치마킹 스캔들: 빅테크 기업들이 Chatbot Arena를 조작했나?

Cohere, 스탠포드, MIT, Ai2의 새로운 논문에서 인기 AI 벤치마킹 플랫폼인 Chatbot Arena를 운영하는 LM Arena가 Meta, OpenAI, Google, Amazon과 같은 주요 AI 기업들을 불공정하게 우대했다고 비난하고 있습니다. 연구자들은 이 기업들이 여러 모델 변형을 비공개로 테스트하고 성능이 저조한 결과를 억압하여 순위를 높이는 것을 허용받았다고 주장합니다. 280만 건 이상의 대결을 분석한 결과, 이 기업들에게 불공정한 이점을 제공한 샘플링 비율 증가의 증거가 발견되었습니다. LM Arena는 부정확성을 이유로 이러한 연구 결과에 이의를 제기하고 샘플링 알고리즘을 개선할 계획이지만, 순위 조작을 부인하고 있습니다. 이 논쟁은 AI 벤치마킹의 공정성과 투명성에 대한 우려를 불러일으키고 AI 경쟁에서 주요 기술 기업들이 사용하는 경쟁 전략을 보여줍니다.