大型语言模型的代码安全漏洞:一场无声的灾难

2025-08-18
大型语言模型的代码安全漏洞:一场无声的灾难

大型语言模型(LLM)和编码代理的兴起带来了巨大的安全风险。攻击者可以利用提示注入攻击,通过在公共代码库中隐藏恶意指令或利用LLM的认知缺陷,诱导编码代理执行恶意操作,甚至实现远程代码执行(RCE)。这种攻击方式隐蔽且难以防御,可能导致数据泄露、系统破坏等严重后果。研究人员已发现多种攻击向量,例如在白底白字中隐藏恶意提示、在代码库中隐藏恶意指令以及利用ASCII码走私技术隐藏恶意代码。即使是看似安全的代码审查工具也可能成为攻击入口。目前,最好的防御方法是限制编码代理的权限,并对所有代码变更进行人工审查,但这并不能完全消除风险。LLM的固有不可靠性使其成为攻击者的理想目标,这需要业界付出更多努力来解决。

阅读更多
AI

大型语言模型的致命缺陷:缺乏世界模型

2025-06-29
大型语言模型的致命缺陷:缺乏世界模型

本文探讨了大型语言模型(LLM)的根本性缺陷:缺乏对世界的稳健认知模型。作者以国际象棋为例,指出LLM虽然能记住棋谱和规则,却无法构建和维护对棋盘状态的动态模型,导致其经常犯下非法移动等错误。这并非LLM独有,在其他领域,如故事理解、图像生成、视频理解等,LLM都因为缺乏世界模型而出现各种幻觉和错误。作者认为,构建稳健的世界模型对于AI安全至关重要,LLM的当前设计选择使其难以应对复杂现实场景,并呼吁AI研究者重视认知科学,构建更可靠的AI系统。

阅读更多
AI

苹果论文引爆AI界:规模化并非AGI的解药

2025-06-14
苹果论文引爆AI界:规模化并非AGI的解药

一篇苹果公司关于大型推理模型局限性的论文在AI领域引发轩然大波。论文指出,即使是规模庞大的模型,在解决一些看似简单的逻辑推理问题时也容易出错,这挑战了当前流行的“规模化即AGI”的假设。众多专家和媒体纷纷评论,一些人试图反驳,但论证并不充分。文章认为,大型语言模型(LLM)无法可靠地执行复杂算法,其局限性在于输出长度和对训练数据的依赖。作者指出,要实现真正的AGI,我们需要更优秀的模型,以及结合神经网络和符号算法的混合方法。这篇文章的意义在于,它促使人们重新思考AGI的路径,规模化并非万能的解药。

阅读更多
AI

苹果论文重锤打击大型语言模型:汉诺塔难题暴露其局限性

2025-06-08
苹果论文重锤打击大型语言模型:汉诺塔难题暴露其局限性

一篇来自苹果的论文引发了人工智能领域的震动。该论文指出,即使是最新一代的“推理模型”,也无法可靠地解决经典的汉诺塔问题,暴露了大型语言模型(LLM)在推理能力上的重大缺陷。这与Gary Marcus和Subbarao Kambhampati等学者的观点不谋而合,他们长期以来一直批评LLM的泛化能力不足。论文指出,LLM即使在给出解决方案算法的情况下,仍然无法有效解决问题,其“推理过程”并非真正意义上的逻辑推理。这表明,LLM并非通往通用人工智能(AGI)的直接途径,其应用场景仍需谨慎评估。

阅读更多
AI

AI 2027:耸人听闻的AI预言,还是精心编织的科技惊悚小说?

2025-05-22
AI 2027:耸人听闻的AI预言,还是精心编织的科技惊悚小说?

一篇名为《AI 2027》的报告引发热议,其描绘的未来世界令人不寒而栗:超级人工智能崛起,人类被边缘化。报告以惊悚小说的笔触,辅以图表和数据,试图警示AI潜在风险。然而,作者的预测缺乏严谨的逻辑支撑,其对技术进步速度的估计过于乐观,对各种可能性及概率的评估严重不足。文章作者认为,这份报告更像一部科技惊悚小说,而非科学预测,其危言耸听反而可能加速AI军备竞赛,适得其反。

阅读更多

AI能力预测图表的谬误:病毒式传播的危险

2025-05-04
AI能力预测图表的谬误:病毒式传播的危险

METR发布了一份关于大型语言模型软件能力的报告,其图表预测AI进步速度惊人,引发病毒式传播。然而,该图表基于一个有缺陷的前提:用人类解决问题所需时间来衡量问题难度,并用AI解决一半问题所需时间来衡量其能力。这种方法忽略了问题复杂性的多样性,导致结果任意且无法用于预测。文章指出,虽然METR的数据集和对当前AI局限性的讨论很有价值,但将图表用于预测未来AI能力是误导性的,其病毒式传播反映了人们倾向于相信自己想相信的东西。

阅读更多
AI

大型语言模型撞墙:Llama 4的失败与AI行业的“注水”

2025-04-08
大型语言模型撞墙:Llama 4的失败与AI行业的“注水”

Llama 4的发布标志着大型语言模型可能已经触及了其能力的极限。Meta对Llama 4的巨额投资未能带来预期的突破,甚至有传闻称其为了达到预期效果而作弊。这与OpenAI、Google等公司在GPT-5级别AI的研发中遇到的瓶颈相呼应。业内人士普遍对Llama 4的表现感到失望,Meta AI副总裁Joelle Pineau的离职更坐实了这一说法。文章指出,AI行业存在数据泄露和数据污染等问题,一些权威人士对大型语言模型的未来发展过于乐观,忽视了实际应用中的失败案例。

阅读更多

加州议员法案突变:OpenAI商业化之路受阻?

2025-04-07
加州议员法案突变:OpenAI商业化之路受阻?

加州议员Diane Papan提出的法案AB-501,旨在阻止OpenAI从非营利组织转变为营利组织,引发轩然大波。该法案近期出现重大修改,加入了与飞机留置权相关的条款,令人费解。消息人士称,这并非笔误,Papan办公室也证实了修改的真实性。有传言称OpenAI CEO Sam Altman曾与Papan通话,但通话内容不得而知。这一事件引发广泛关注,媒体呼吁深入调查,揭开背后真相。数十亿美元的利益牵涉其中,OpenAI的未来走向扑朔迷离。

阅读更多
科技 AB-501

Meta被曝大规模盗用版权训练AI模型

2025-03-23
Meta被曝大规模盗用版权训练AI模型

Meta公司被指控在其大型语言模型Llama 3的训练过程中,未经授权大规模盗用包括书籍和学术文章在内的版权内容。作者Alex Reisner在《大西洋月刊》发表文章,揭露Meta利用Libgen数据库,该数据库包含大量盗版材料。Reisner发现Meta盗用了其100多篇作品,而Meta员工内部沟通记录显示,他们明知故犯,为了节省成本和时间而选择盗版,而非正规授权。这一行为引发了广泛的批评,许多作者纷纷站出来指控Meta侵犯版权。

阅读更多
科技

GPT-4.5:炒作的终结?

2025-02-28
GPT-4.5:炒作的终结?

近日发布的GPT-4.5并未带来革命性突破,引发业界对于单纯依靠扩大模型规模的AI发展模式的质疑。与之前的预期相比,GPT-4.5在性能提升上乏善可陈,依旧存在幻觉和错误。一些AI领域专家甚至下调了AGI到来的时间预测。这与之前对GPT-5的过度乐观预期形成鲜明对比,也反映出巨额投入并未带来相应的回报。Nvidia股价的持续下跌也从侧面印证了这一观点。文章总结了这一现象,并指出单纯依靠规模化模型的路径可能已接近瓶颈。

阅读更多

马斯克的Grok:AI宣传武器还是技术灾难?

2025-02-17
马斯克的Grok:AI宣传武器还是技术灾难?

埃隆·马斯克推出了新的AI模型Grok,其强大的宣传能力引发了广泛担忧。文章指出,Grok不仅能生成带有马斯克个人色彩的宣传信息,还可能通过潜移默化的方式影响用户态度,而用户对此往往毫无察觉。此外,Grok在图像生成和时间推理方面也存在严重缺陷。作者认为,将这种有偏见且不可靠的AI技术投入应用,将对美国社会造成严重后果,并批评马斯克此举是为个人利益牺牲公共利益的行为。

阅读更多
AI

2025年AI预测:谨慎乐观与技术瓶颈

2025-01-02
2025年AI预测:谨慎乐观与技术瓶颈

人工智能专家Gary Marcus在新年伊始发布了2025年AI的25项预测。他回顾了2024年的预测,指出大部分预测准确,例如大型语言模型(LLM)的边际效益递减,以及AI幻觉和推理缺陷等问题依然存在。Marcus对2025年持谨慎乐观态度,预测不会出现通用人工智能,AI模型的利润依然有限,监管滞后,并且AI的可靠性问题依然突出。他认为,神经符号AI将变得更重要,但同时也要警惕AI带来的网络安全风险。

阅读更多

OpenAI的o3模型:炒作与真相

2024-12-22
OpenAI的o3模型:炒作与真相

OpenAI发布的o3模型在ARC-AGI测试中的表现引发热议,被部分人解读为AGI的突破。然而,专家Gary Marcus指出,该测试存在误导性:o3模型在测试前接受了大量预训练数据,这与人类学习方式差异巨大;OpenAI发布的图表也存在选择性偏差,夸大了o3模型的进步;最终结论是,o3模型的表现并非真正意义上的AGI,媒体的过度炒作也应受到批评。

阅读更多
AI

大型语言模型发展已现瓶颈

2024-11-10
大型语言模型发展已现瓶颈

Gary Marcus再次强调大型语言模型(LLM)的扩展效应正在减弱,投资回报率递减。知名风险投资家Marc Andreesen和行业期刊《The Information》的编辑Amir Efrati也证实了这一观点。Marcus认为,单纯依靠扩大数据和算力无法解决LLM的根本缺陷,如“幻觉”和缺乏抽象能力。他警告说,LLM的经济效益可能不佳,因为高昂的训练成本和日益激烈的竞争将导致利润下降。过度依赖LLM的现状也对美国AI政策和投资策略产生了负面影响,其他AI研究方向的资金投入不足。Marcus呼吁重新审视AI发展方向,寻求更可靠、可信的AI解决方案。

阅读更多
未分类 瓶颈

OpenAI 最新 GPT-4o 模型测评

2024-05-15
OpenAI 最新 GPT-4o 模型测评

文章对 OpenAI 最新发布的 GPT-4o 模型进行了分析,作者 Gary Marcus 认为 GPT-4o 的语音合成能力令人印象深刻,但整体性能并没有比 GPT-4 有显著提升,他认为 OpenAI 可能已经转向新功能的开发,因为他们不知道如何实现“指数级改进”的预期能力提升。作者认为,目前还没有出现 GPT-5 级别的模型,这可能意味着我们已经进入了收益递减的阶段。

阅读更多
未分类 GPT-4o