Meta의 Llama 4: 벤치마킹 스캔들로 AI 업계 충격

2025-04-13

Meta가 최근 출시한 Llama 4 대규모 언어 모델 제품군, 특히 Maverick 버전은 OpenAI의 GPT-4o나 Google의 Gemini 2.0 Flash와 같은 모델들을 능가하는 인상적인 벤치마킹 결과로 AI 업계에 충격을 주었습니다. 하지만 곧 벤치마킹에 사용된 Maverick과 공개 버전 사이의 동작 차이가 발견되면서 Meta의 부정 행위 의혹으로 이어졌습니다. Meta는 벤치마킹에 특별히 조정된 버전을 사용했다고 인정했고, 수정되지 않은 Llama 4 Maverick 모델을 LMArena에 추가했습니다. 결과적으로 순위가 크게 하락했습니다. 이 사건은 대규모 모델 벤치마킹의 투명성 문제를 드러내고 모델 평가 방법을 재검토해야 한다는 목소리가 높아지고 있습니다.

(www.neowin.net)

모델 컨텍스트 프로토콜(MCP): 강력한 LLM 애플리케이션 구축을 위한 새로운 표준

포식자-피식자 순환의 비밀: Lotka-Volterra 방정식