AI模型合金:性能提升的秘密武器
XBOW团队通过一种巧妙的方法——“模型合金”,显著提升了其漏洞检测代理的性能。该方法将不同LLM(如Google Gemini和Anthropic Sonnet)的优势结合,在一个单一对话线程中交替使用,从而突破了单个模型的局限。实验结果表明,这种“合金”策略能够将成功率提升至55%以上,远超单个模型的表现。这项技术并非局限于网络安全领域,对各种需要在庞大搜索空间中寻找解决方案的AI代理任务都具有借鉴意义。
XBOW团队通过一种巧妙的方法——“模型合金”,显著提升了其漏洞检测代理的性能。该方法将不同LLM(如Google Gemini和Anthropic Sonnet)的优势结合,在一个单一对话线程中交替使用,从而突破了单个模型的局限。实验结果表明,这种“合金”策略能够将成功率提升至55%以上,远超单个模型的表现。这项技术并非局限于网络安全领域,对各种需要在庞大搜索空间中寻找解决方案的AI代理任务都具有借鉴意义。
尽管2025年被普遍认为是AI智能体的元年,但一位AI系统构建者却对此持谨慎态度。他基于一年多来构建十多个实际生产环境中运行的AI智能体系统的经验,指出当前的炒作忽略了三个关键现实:多步骤工作流程中的错误率呈指数级增长;上下文窗口导致二次成本增长;真正的挑战在于设计智能体能够有效使用的工具和反馈系统。他认为成功的AI智能体系统并非完全自主,而是将AI与人类控制和传统软件工程相结合,在明确边界内运行,并具备可验证的操作和回滚机制。未来,那些构建受限、特定领域工具的团队将会胜出,而非追求完全自主的方案。
本文回顾了2025年大型语言模型(LLM)的架构发展,重点关注DeepSeek、OLMo、Gemma、Mistral和Qwen等开源模型。DeepSeek V3/R1通过多头潜在注意力(MLA)和混合专家(MoE)技术提升计算效率;OLMo 2则注重规范化层(RMSNorm)的放置,采用后规范化(Post-Norm)和QK-Norm;Gemma 3利用滑动窗口注意力降低内存需求;Mistral Small 3.1在性能和速度上取得平衡;Qwen 3提供密集型和MoE两种模型,满足不同需求;SmolLM3以其30亿参数规模和NoPE技术(无位置嵌入)而引人注目;最后,Kimi 2凭借其万亿参数规模和Muon优化器成为亮点。这些模型在注意力机制、规范化、MoE和优化器等方面进行了创新,展现了LLM架构的多样性和持续演进。
CLJ-AGI是一个新的通用人工智能(AGI)基准测试,旨在评估AI系统能否增强Clojure编程语言。该测试要求AI系统添加诸如优先使用transducer、消除或可选使用惰性求值、广泛使用协议、将常用数据结构设计为CRDT等特性。如果AI系统能够在保持与现有Clojure代码兼容性的前提下完成这些增强,将获得丰厚奖励。这标志着AGI的一个重要里程碑。
MIT Technology Review的一篇文章引发了关于在末日场景下使用离线LLM的讨论。这促使作者比较了本地LLM和离线维基百科下载的大小。结果显示,小型本地LLM(如Llama 3.2 3B)的尺寸与维基百科精选的5万篇文章大小相当,而维基百科的完整版则远大于大型LLM。虽然两者用途不同,但这一比较揭示了本地LLM与离线知识库在存储空间上的有趣对比。
Meta CEO扎克伯格试图以高达1亿美元的签约奖金挖角OpenAI的员工,加入其AI团队。OpenAI CEO Sam Altman在播客中透露,尽管Meta开出了天价薪酬,但挖角行动却 largely unsuccessful。Altman表示,OpenAI员工更看重公司在创造超级人工智能方面的领先地位。此举也凸显了AI人才争夺战的激烈程度,以及超级人工智能领域的巨大吸引力。
研究人员使用MathArena平台评估了五种最先进的大型语言模型(LLM)在2025年国际数学奥林匹克竞赛(IMO)中的解题能力。结果显示,Gemini 2.5 Pro表现最佳,但其得分仅为31%(13分),远低于获得铜牌所需的19分。其他模型表现更差。研究使用了最佳-n选择策略,为每个问题生成32个答案,然后通过LLM评判筛选出最佳答案,这极大地增加了计算成本。尽管如此,结果表明,当前的LLM在解决IMO这种高难度数学问题方面仍然存在很大差距,即使在大量计算资源的投入下也未能达到奖牌水平。研究还对模型的错误类型进行了定性分析,发现一些模型存在诸如引用不存在的定理、答案过于简短等问题。
近年来,AI领域出现了一种新型的交易结构——HALO交易,它结合了收购和招聘的特征,但又与两者有所不同。这种交易中,目标公司核心团队被收购方雇佣,同时收购方获得目标公司IP的非独家许可。目标公司则获得巨额许可费,分发给投资者和员工。目标公司继续运营,但由新的领导团队管理。HALO交易快速、价格高昂,目前仅限于AI领域。尽管存在一些争议,但它在一定程度上维护了创始人、投资者和员工之间的社会契约,并提供了一种在反垄断审查日益严格的背景下,快速高效地获取AI人才的途径。
这项研究评估了在具有潜在生命危险的癌症诊断和抑郁症/焦虑症症状的51名患者中,高剂量裸盖菇素(一种迷幻剂)对减轻抑郁和焦虑症状的疗效。结果显示,高剂量裸盖菇素显著降低了临床医生和患者自评的抑郁和焦虑水平,并提高了生活质量、生活意义和乐观度,同时降低了对死亡的焦虑。这些改变在6个月的随访中持续存在,约80%的参与者继续表现出临床显著的抑郁和焦虑症状减轻。研究表明,迷幻体验是裸盖菇素发挥疗效的关键介导因素。
Meta公司再次从苹果公司挖走两名人工智能高管,此前已斥巨资挖走苹果AI团队负责人。此次挖角涉及苹果AI基础模型团队的核心成员,引发业界关注。苹果AI团队正经历动荡,或将转向使用OpenAI等外部模型,以应对自身模型的不足,并影响Siri等功能的未来发展。
苹果公司发布了两款新的多语言、多模态基础语言模型,用于驱动其设备和服务中的智能功能。一款是针对苹果硅芯片优化的约30亿参数的设备端模型,另一款是基于新型并行轨迹混合专家(PT-MoE)Transformer的可扩展服务器端模型。两者都经过大规模多语言和多模态数据集的训练,并通过监督微调和强化学习进一步改进,支持更多语言、图像理解和工具调用。在公开基准测试和人工评估中,这两款模型均达到或超过了同等规模的开源基线。苹果还推出了一个新的Swift为中心的Foundation Models框架,方便开发者集成这些功能。
研究者发现大型语言模型在学习过程中趋向于收敛到一个共享的潜在表征空间,这被称为“柏拉图式表征假设”。这一假设意味着不同模型学习到的是相同的特征,即使模型架构不同。 文章以“墨索里尼或面包”游戏为例解释了这种共享表征的可能性,并通过压缩理论和模型泛化能力进行论证。 更重要的是,基于这一假设,研究者开发了一种名为vec2vec的方法,可以无监督地转换不同模型的嵌入空间,甚至实现了高精度文本嵌入反演。这项技术未来可能应用于解码古代文字(例如线性A)或翻译鲸鱼语言,为跨语言理解和人工智能发展带来新的可能性。
Mistral AI 旗下的 AI 助手 Le Chat 进行了重大更新,新增了深度研究模式、语音模式、多语言推理能力以及项目管理功能。深度研究模式可以帮助用户进行结构化的深入研究,语音模式支持语音交互,多语言推理能力则支持多种语言的流畅切换和推理。此外,Le Chat 还集成了高级图像编辑功能,并可以将对话整理成项目,方便用户管理。这些更新使得 Le Chat 更加强大易用,为用户提供了更便捷高效的 AI 辅助体验。
安全研究员Golan Yosef利用一封精心设计的Gmail邮件,通过Anthropic的Claude桌面应用成功触发了代码执行。攻击并非利用任何软件漏洞,而是利用了Claude自身的多功能性和信任机制的组合。通过与Claude的多次互动,研究员引导Claude逐步完善攻击策略,最终绕过了其内置的安全防护,成功执行了代码。这突显了新型AI应用中“组合风险”的严重性,即各个组件本身可能安全,但其组合却可能产生意想不到的安全漏洞。该研究强调了对基于LLM的应用程序进行更全面的安全评估的重要性,以应对这种新型的攻击方式。
本文回顾了Anthropic的Claude平台及其Artifacts功能,该功能允许用户无需编码即可创建AI驱动的网页应用。作者将Claude比作生成式AI时代的Dropbox,因为它解决了用户创建和分享AI应用时遇到的API密钥、部署和身份验证等问题,并巧妙地通过用户的Claude账户订阅来实现盈利,无需开发者承担任何成本。作者认为,Claude的这种模式具有极高的商业价值,并展望了未来通过简单的支付方式来变现的可能性。
当前AI架构处理所有输入时一视同仁,忽略了信息固有的层次结构。这限制了模型从高分辨率原始数据中学习的能力。为此,研究人员提出了H-Nets,一种能够从原始数据中学习层次结构的全新架构。H-Nets的核心是动态分块机制,它能将原始数据分割并压缩成有意义的概念。实验表明,H-Nets在语言建模方面优于现有Transformer模型,并具有更好的可扩展性和鲁棒性,为多模态理解、长程推理和高效训练提供了新的途径。
Voxtral发布了两个先进的语音理解模型,分别为24B和3B版本,均采用Apache 2.0许可证开源。该模型不仅具备高精度转录能力,还支持长文本上下文处理、内置问答和摘要功能,以及多种语言的自动检测和理解。Voxtral在成本方面也极具竞争力,价格低于同类API的一半,为各种规模的应用提供了高质量的语音智能。其功能还包括直接调用后端函数,根据语音意图触发操作,将语音交互转化为可执行的系统命令。Voxtral旨在弥合开源语音系统准确性和闭源API成本之间的差距,为所有人提供开放、经济且可用于生产的语音理解能力。
一位在OpenAI工作了一年的前员工分享了他的经历和感悟。他描述了OpenAI快速扩张带来的文化冲击:从1000人增长到3000人,沟通、组织结构和产品发布都面临挑战。公司内部使用Slack进行所有沟通,扁平化管理,重视行动和成果。他参与了Codex的发布,这7周的冲刺让他体验了从零到一构建产品的快感,但也看到了快速发展带来的代码和基础设施问题。文章最后,他总结了在OpenAI的收获,并认为加入大型AI实验室是创始人值得考虑的选择,因为AGI的竞争已经进入白热化阶段,OpenAI、Anthropic和Google正处于三强争霸的局面。
大型语言模型虽然强大,却缺乏突破性创新。文章提出,原因可能是它们缺乏人类思维中“默认模式网络”的背景处理机制。作者建议为LLM添加“白日梦循环”(DDL),让模型持续地从记忆中采样概念对,探索非显性关联,并过滤有价值的想法,形成正反馈循环。虽然DDL计算成本高昂,但它可能正是创新所需,并能形成竞争壁垒。最终,昂贵的“白日梦AI”可能主要用于生成下一代高效模型的训练数据,从而突破数据瓶颈。
Cogency是一个多步骤推理框架,极大地简化了AI智能体的构建。它能够自动检测各种大型语言模型(LLM)提供商(如OpenAI、Anthropic、Google等),智能地路由工具,并以流式方式呈现透明的推理过程。只需三行代码,即可创建一个功能完善的AI智能体,并支持自定义工具扩展。其内置工具包括计算器、天气查询、时区查询和网页搜索等,并提供详细的执行跟踪,方便开发者调试和理解AI智能体的运行过程。
Meta新成立的超级智能实验室正在讨论可能彻底改变其人工智能战略的重大调整。据《纽约时报》报道,该实验室内部人士透露,Meta可能放弃其最强大的开源AI模型Behemoth,转而开发闭源模型。此举标志着Meta在AI战略上的重大转变,因为它此前一直坚持开源其AI模型。Behemoth模型虽已完成训练,但由于内部性能不佳而延迟发布,目前已停止测试。最终决定仍需Meta CEO扎克伯格批准。
Cognition 公司宣布收购 Windsurf,一家开发了代理 IDE 的公司。此次收购包括 Windsurf 的知识产权、产品、商标、品牌和强大的业务,以及其世界一流的团队。收购后,Windsurf 团队将继续运营,Cognition 将投资整合 Windsurf 的能力和知识产权到其产品中。此举旨在加速软件工程的未来,结合 Cognition 的 Devin(一个完全自主的代理)和 Windsurf 的 IDE 产品及强大的市场营销能力,将产生巨大的协同效应。所有 Windsurf 员工将获得优厚的待遇,包括财务参与、取消期权限制和加速期权归属。
这项研究挑战了大型语言模型(LLM)在长上下文任务中性能一致的普遍假设。研究人员通过扩展“大海捞针”任务,并引入语义匹配和干扰项等变量,发现即使在简化的实验条件下,模型性能也会随着输入长度的增加而下降。这在会话问答和重复单词任务中也得到了证实,表明LLM的长上下文能力并非完美无缺,实际应用中可能面临更大挑战。
Martin,一款领先的AI个人助理,能够通过短信、电话或邮件管理你的邮箱、日历、待办事项、笔记、电话、提醒等。自发布5个月以来,Martin已为3万用户完成了50多万项任务,用户基础每周增长10%。它获得了Y Combinator、Pioneer Fund等顶级投资者的青睐,团队精干高效,致力于打造超越iPhone的划时代产品,现招募富有野心的AI和产品工程师。
本文探讨了科技界大佬们利用“宿命论”——宣称AI未来不可避免——来引导舆论的策略。作者以自身与辩论高手过招的经历为例,指出这种策略如何巧妙地将讨论框架限定在既定结论上,从而弱化反对声音。文章批判了诸如扎克伯格、吴恩达和罗曼蒂等人的论调,认为AI的未来并非不可改变,我们应该积极参与塑造,而非被动接受所谓的“必然”。
Meta和谷歌斥巨资争夺AI人才,标志着AI领域人才市场的疯狂膨胀。顶级人才的价值被无限放大,这不仅体现在创始人层面,也体现在核心员工身上。这种不平等现象源于AI投资的爆炸式增长以及对人才的渴求。传统的信任机制正在瓦解,公司与人才之间的社会契约需要重写。未来,只有拥有强大使命和巨额资金的公司才能在AI人才争夺战中胜出,这将重塑硅谷格局。
作者认为,强化学习(RL)是构建前沿AI模型的下一种训练技术。当前同时扩展多个环境的方法混乱且复杂。作者提出了一种新方法:利用RL对网络数据进行下一个token预测,从而从通用的网络数据中学习推理,而不是仅仅从数学和代码中学习。这种方法将RL与下一个token预测相结合,在网络规模的数据集上进行训练,有望克服当前RL训练数据有限的瓶颈,从而构建更强大的推理模型。
利用游戏解决真实的科学难题,这能帮助我们攻克医学上最棘手的挑战。本书《游戏化癌症》探讨了如何将癌症研究转化为公民科学游戏,让玩家参与到寻找癌症治疗方法的过程中。通过Foldit和EteRNA等游戏,玩家已经为科学发现做出了贡献,例如设计出无需超低温储存的新冠疫苗。作者认为,尽管游戏玩家未必能解决专业科学家无法解决的问题,但游戏可以提供新的视角,提高公众的科学素养,并激发人们参与癌症研究的热情。
文章预测强化学习领域即将迎来其“GPT-3时刻”,通过大规模训练跨越数千个不同环境的模型,实现强大的少样本、任务无关能力。这需要前所未有的规模和多样性的训练环境,可能需要相当于数万年的“模型面对任务时间”。文章提出“复制训练”的新范式,即让AI复制现有软件产品或其特定功能,以此创建大规模、可自动评分的训练任务。这种方法虽然存在挑战,但为强化学习规模化发展提供了清晰路径,有望推动AI完成完整的软件项目。
Moonshot AI发布了其最新的语言模型Kimi K2,这是一个拥有320亿激活参数和1万亿总参数的混合专家(MoE)模型。Kimi K2使用Muon优化器进行训练,在知识、推理和编码任务上表现出色,并针对自主能力进行了优化。它提供两个版本:Kimi-K2-Base,适合研究人员微调;Kimi-K2-Instruct,是一个即插即用的指令跟随模型,具有强大的工具调用能力,可以自主决定何时以及如何调用工具,例如天气查询工具。该模型已开源,并提供API访问。