Meta的Llama 4模型：基准测试造假风波

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Meta的Llama 4模型：基准测试造假风波

2025-04-13

Meta近期发布的Llama 4大型语言模型家族，其中Maverick版本在基准测试中表现惊艳，一度超越GPT-4o和Gemini 2.0 Flash。然而，很快用户发现公开版本与基准测试版本表现差异巨大，引发了Meta作弊的指控。Meta承认在基准测试中使用了特殊调优版本，并已将未修改的Llama 4 Maverick模型添加到LMArena，排名大幅下降。此次事件暴露出大型模型基准测试的透明度问题，也引发了对模型评估方法的反思。

(www.neowin.net)

Model Context Protocol (MCP): 构建强大LLM应用的行业标准

揭秘捕食者-猎物循环的数学模型：Lotka-Volterra方程