大型语言模型的进步：期望与现实的差距

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型的进步：期望与现实的差距

2025-04-06

一家初创公司尝试利用AI模型进行代码安全漏洞扫描，发现自去年六月以来，尽管模型的基准测试分数不断提高，但实际应用效果提升有限。作者认为，大型语言模型的进步并未体现在经济效用和泛化能力上，这与公开报道存在差距。这引发了对AI模型评测方法的质疑，以及对AI实验室可能夸大模型能力的担忧。作者呼吁关注模型的实际应用能力，而非单纯的基准测试分数，并强调在AI应用于社会治理前需完善评估体系。

(www.lesswrong.com)

旧金山市长力图借助科技巨头重塑城市辉煌

欧盟或将对X处以超过10亿美元的巨额罚款