MetaのLlama 4:ベンチマークスキャンダルがAI界を揺るがす

2025-04-13
MetaのLlama 4:ベンチマークスキャンダルがAI界を揺るがす

Metaが最近リリースした大規模言語モデルファミリーLlama 4、特にMaverickバージョンは、OpenAIのGPT-4oやGoogleのGemini 2.0 Flashなどのモデルを凌駕する優れたベンチマーク結果でAI業界を驚かせました。しかしすぐに、ベンチマークで使用されたMaverickと一般公開されたものとの間に動作の差異が発見され、Metaの不正行為疑惑につながりました。Metaはベンチマークで特別に調整されたバージョンを使用していたことを認め、修正されていないLlama 4 MaverickモデルをLMArenaに追加しました。その結果、ランキングは大幅に低下しました。この事件は、大規模モデルのベンチマークにおける透明性の問題を浮き彫りにし、モデル評価方法の見直しを求める声が高まっています。

AI