MetaのLlama 4：ベンチマークスキャンダルがAI界を揺るがす

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-04-13

Metaが最近リリースした大規模言語モデルファミリーLlama 4、特にMaverickバージョンは、OpenAIのGPT-4oやGoogleのGemini 2.0 Flashなどのモデルを凌駕する優れたベンチマーク結果でAI業界を驚かせました。しかしすぐに、ベンチマークで使用されたMaverickと一般公開されたものとの間に動作の差異が発見され、Metaの不正行為疑惑につながりました。Metaはベンチマークで特別に調整されたバージョンを使用していたことを認め、修正されていないLlama 4 MaverickモデルをLMArenaに追加しました。その結果、ランキングは大幅に低下しました。この事件は、大規模モデルのベンチマークにおける透明性の問題を浮き彫りにし、モデル評価方法の見直しを求める声が高まっています。