AI 벤치마킹 스캔들: 빅테크 기업들이 Chatbot Arena를 조작했나?

인기 태그：

가상화 DNS 보안 형식적 검증 도달 가능성 분석 C언어 경제 컴파일러 오류 매크로 충돌 웹 확장 기능 개발 프레임워크 모든 태그

2025-05-01

Cohere, 스탠포드, MIT, Ai2의 새로운 논문에서 인기 AI 벤치마킹 플랫폼인 Chatbot Arena를 운영하는 LM Arena가 Meta, OpenAI, Google, Amazon과 같은 주요 AI 기업들을 불공정하게 우대했다고 비난하고 있습니다. 연구자들은 이 기업들이 여러 모델 변형을 비공개로 테스트하고 성능이 저조한 결과를 억압하여 순위를 높이는 것을 허용받았다고 주장합니다. 280만 건 이상의 대결을 분석한 결과, 이 기업들에게 불공정한 이점을 제공한 샘플링 비율 증가의 증거가 발견되었습니다. LM Arena는 부정확성을 이유로 이러한 연구 결과에 이의를 제기하고 샘플링 알고리즘을 개선할 계획이지만, 순위 조작을 부인하고 있습니다. 이 논쟁은 AI 벤치마킹의 공정성과 투명성에 대한 우려를 불러일으키고 AI 경쟁에서 주요 기술 기업들이 사용하는 경쟁 전략을 보여줍니다.