大型语言模型的进步:期望与现实的差距

2025-04-06
大型语言模型的进步:期望与现实的差距

一家初创公司尝试利用AI模型进行代码安全漏洞扫描,发现自去年六月以来,尽管模型的基准测试分数不断提高,但实际应用效果提升有限。作者认为,大型语言模型的进步并未体现在经济效用和泛化能力上,这与公开报道存在差距。这引发了对AI模型评测方法的质疑,以及对AI实验室可能夸大模型能力的担忧。作者呼吁关注模型的实际应用能力,而非单纯的基准测试分数,并强调在AI应用于社会治理前需完善评估体系。

AI