Meta的Llama 4模型:基准测试造假风波

2025-04-13
Meta的Llama 4模型:基准测试造假风波

Meta近期发布的Llama 4大型语言模型家族,其中Maverick版本在基准测试中表现惊艳,一度超越GPT-4o和Gemini 2.0 Flash。然而,很快用户发现公开版本与基准测试版本表现差异巨大,引发了Meta作弊的指控。Meta承认在基准测试中使用了特殊调优版本,并已将未修改的Llama 4 Maverick模型添加到LMArena,排名大幅下降。此次事件暴露出大型模型基准测试的透明度问题,也引发了对模型评估方法的反思。

AI