Webtagr - 科技资讯摘要

AI安全生态系统发展不平衡：挑战与合作并存

2025-04-10

人工智能相关事故激增，但大型工业模型开发者对负责任AI（RAI）的标准化评估仍然匮乏。然而，HELM Safety、AIR-Bench和FACTS等新基准为评估事实性和安全性提供了有前景的工具。企业之间在认识RAI风险和采取有意义的行动方面存在差距。相比之下，各国政府正表现出越来越紧迫感：2024年，全球人工智能治理合作加强，经合组织、欧盟、联合国和非洲联盟等组织发布了侧重于透明度、可信度和其他核心负责任AI原则的框架。

(hai.stanford.edu)

AI 人工智能治理

阿西莫夫1982年对AI的预言：合作而非竞争

2025-04-10

本文回顾了科幻作家艾萨克·阿西莫夫在1982年的一次访谈，他将人工智能定义为执行以往仅与人类智能相关的任务的任何设备。阿西莫夫认为AI与人类智能是互补的，而非竞争的，两者合作能更快进步。他预见AI将解放人类从事无需创造性思考的工作，但同时也警告了技术进步可能带来的困难和挑战，并以汽车的出现为例，指出我们应该提前为AI时代做好准备，避免重蹈覆辙。

(www.openculture.com)

AI 阿西莫夫

大型语言模型长篇创作能力评测基准

2025-04-10

这项基准测试评估大型语言模型创作长篇故事的能力，包括构思、修改和撰写8个1000字章节。评测指标涵盖章节长度、语言流畅度（避免过度使用特定词汇）、语句重复率以及写作质量随章节递进的变化趋势。最终得分由评估模型综合评定，范围为0-100分。

(eqbench.com)

AI 长篇创作 AI评测

神秘的Quasar Alpha：OpenAI的秘密武器？

2025-04-10

OpenRouter平台上出现了一个名为Quasar Alpha的神秘AI模型，其编程能力迅速蹿红，成为平台上排名第一的AI模型。种种迹象表明，Quasar Alpha可能与OpenAI有关联，甚至可能是OpenAI的o4-mini-low模型的“马甲”。虽然性能并非顶级，但其速度和性价比或将颠覆AI编程模型市场。Quasar Alpha目前已可在Kilo Code上体验。

(blog.kilocode.ai)

AI

Anthropic推出高价AI聊天机器人Claude Max订阅计划

2025-04-09

人工智能公司Anthropic推出了新的AI聊天机器人Claude Max的高价订阅计划，以应对OpenAI的ChatGPT Pro。Max提供比Claude Pro更高的使用限制和优先访问最新AI模型和功能，分为每月100美元（5倍速率限制）和200美元（20倍速率限制）两个版本。此举旨在增加收入，并为Anthropic的AI模型开发提供资金支持。Anthropic还在探索其他收入渠道，例如面向大学的Claude for Education。虽然Anthropic未透露具体销量，但其最新的Claude 3.7 Sonnet模型已创造了大量需求。

(techcrunch.com)

AI Claude Max

AI心理治疗机器人：疗效媲美人类治疗师？

2025-04-09

达特茅斯学院的研究人员开发了一种AI心理治疗机器人，在一项随机临床试验中，其疗效与甚至超过了人类临床医生。该研究发表在《新英格兰医学杂志》上，旨在缓解美国严重的医疗保健专业人员短缺问题。该机器人经过五年多的严格训练，学习临床最佳实践，能够与患者建立信任感，并提供全天候支持。虽然美国心理学会对未经规范的AI心理治疗机器人表达了担忧，但对该研究成果表示赞赏，认为其为AI在心理健康领域的应用树立了良好的榜样。研究人员强调，该技术仍处于早期阶段，需要进一步测试才能投入市场，但这为解决心理健康服务不足问题提供了一种潜在的解决方案。

(www.npr.org)

AI 机器人治疗

谷歌发布第七代TPU：Ironwood，引领推理AI时代

2025-04-09

谷歌在Cloud Next '25大会上发布了第七代张量处理单元（TPU）Ironwood，这是迄今为止性能最高、可扩展性最好的定制AI加速器，也是首个专门为推理设计的TPU。Ironwood标志着AI发展的一个重大转变，从响应式AI转向主动生成见解的推理AI时代，它能够处理海量数据并主动生成见解。Ironwood由高达9216个液冷芯片组成，通过突破性的芯片间互连（ICI）网络连接，总功率接近10兆瓦，是谷歌云AI超算架构的重要组成部分。开发者可以使用Google的Pathways软件栈轻松利用数万个Ironwood TPU的计算能力。

(blog.google)

AI 推理AI

Agent2Agent (A2A) 协议：AI 代理互操作性新纪元

2025-04-09

谷歌推出开放协议 Agent2Agent (A2A)，旨在实现 AI 代理之间的互操作性。超过 50 家科技公司和服务提供商参与其中，A2A 允许不同厂商、不同框架构建的 AI 代理进行安全的信息交换和协同行动，从而提升效率并降低成本。A2A 基于现有标准，支持多种模式，并注重安全性和长期任务处理。其应用场景广泛，例如招聘流程自动化，通过协同多个 AI 代理，可以更高效地完成候选人筛选和面试安排等工作。A2A 的开源特性将促进 AI 代理生态系统的繁荣发展。

(developers.googleblog.com)

AI A2A 协议

DeepCoder-14B：开源代码推理模型，性能媲美OpenAI o3-mini

2025-04-09

Agentica和Together AI合作发布了DeepCoder-14B-Preview，这是一个基于强化学习微调的代码推理模型，其在LiveCodeBench上的准确率达到了60.6%，与OpenAI的o3-mini不相上下。该模型使用了24000个经过验证的编码问题进行训练，并开源了数据集、代码、训练日志和系统优化。DeepCoder的成功之处在于其高质量的数据集、稳定的GRPO+强化学习算法以及高效的系统优化，这些都为提升LLM的代码推理能力提供了宝贵的经验。

(www.together.ai)

AI 代码推理

Gemini 2.5 Pro实验版深度研究功能震撼来袭！

2025-04-09

Google Gemini Advanced订阅用户现在可以使用Gemini 2.5 Pro实验版深度研究功能，该功能基于业界推理基准和Chatbot Arena评定为全球最强大的AI模型。Gemini深度研究如同你的私人AI研究助手，借助最智能的模型，它能够显著提升研究过程的每个步骤。测试结果显示，与其他领先的深度研究提供商相比，评估人员更倾向于由Gemini 2.5 Pro驱动的深度研究生成的报告（比例超过2:1）。用户反馈指出，在最新模型上测试深度研究功能后，分析推理、信息综合和洞察性研究报告的生成能力均得到显著提升。Gemini Advanced用户可在网页、Android和iOS平台访问该功能，生成关于几乎任何研究主题的详细易读报告，节省大量时间。此外，别忘了尝试我们的音频概述功能，它可以将你的报告转换成播客风格的对话，方便你随时收听。访问我们的网站了解更多信息，现在就通过下拉菜单选择Gemini 2.5 Pro（实验版），然后点击提示栏中的“深度研究”来尝试吧！

(blog.google)

AI 深度研究

Cyc项目：40年巨额投入，人工智能的宏大叙事终成泡影？

2025-04-08

本文回顾了Cyc项目40年的历程，该项目旨在通过扩展符号逻辑构建人工通用智能（AGI）。尽管投入了2亿美元和2000人年的努力，Cyc最终未能达到预期的智能水平。文章揭示了该项目的秘密历史，并指出其封闭性和对替代性AI方法的拒绝是导致失败的关键因素。Cyc的失败对基于符号逻辑的AI方法提出了强烈的质疑，引发了人们对AGI实现路径的重新思考。

(yuxi-liu-wired.github.io)

AI Cyc项目符号逻辑

Meta的Llama 4：排名第二的秘密与混乱发布

2025-04-08

Meta发布了Llama 4的两个新模型：Scout和Maverick。Maverick在LMArena排名第二，超过了GPT-4o和Gemini 2.0 Flash。然而，Meta承认LMArena测试的是一个经过特别优化的“实验性聊天版本”，并非公开版本。此举引发争议，LMArena更新了政策以防止类似情况再次发生。Meta解释称这是为了实验不同版本，但此举也让人质疑其在AI竞赛中的策略，以及Llama 4发布时间的蹊跷选择。最终，事件凸显了AI基准测试的局限性以及大型科技公司在竞争中的策略复杂性。

(www.theverge.com)

AI

基于测试时训练的Transformer模型生成一分钟视频

2025-04-08

现有的Transformer模型难以生成一分钟长的视频，因为自注意力机制在处理长序列时效率低下。为解决此问题，研究人员尝试使用测试时训练(TTT)层，其隐藏状态本身就是一个神经网络，表达能力更强。将TTT层添加到预训练的Transformer模型中，使其能够根据文本故事板生成一分钟长的视频。实验结果表明，与Mamba 2、Gated DeltaNet和滑动窗口注意力机制等基线方法相比，使用TTT层的模型生成的视频更连贯，能够讲述复杂的故事，在人类评估中领先34 Elo点。尽管结果有待改进，但这项研究为生成更长、更复杂视频提供了新的思路。

(test-time-training.github.io)

AI 测试时训练

多模态AI图像生成：一场视觉革命的开端

2025-04-08

谷歌和OpenAI近期发布的多模态图像生成能力标志着AI图像生成领域的一场革命。不同于以往将文本提示发送给独立图像生成工具的模式，多模态模型能够直接控制图像生成过程，如同LLM生成文本一样，逐个“token”地构建图像。这使得AI能够生成更精准、更令人印象深刻的图像，并能根据用户的反馈进行迭代修改。文章通过多个示例展示了多模态模型的强大功能，例如生成信息图、修改图像细节、甚至创建虚拟产品广告等。然而，文章也指出了该技术存在的挑战，例如版权、伦理问题以及潜在的滥用风险，例如深度伪造等。最终，作者认为，多模态AI将深刻改变视觉创作领域，我们需要认真思考如何引导这一变革，确保其健康发展。

(www.oneusefulthing.org)

AI

实时神经可塑性：赋予预训练LLM实时学习能力

2025-04-08

这项实验性技术名为“神经涂鸦”，通过一个名为“喷涂层”的插件，将记忆痕迹直接注入预训练大型语言模型（LLM）的最终推理阶段，无需微调或重新训练。它模仿大脑的神经可塑性，通过改变模型的向量嵌入来影响其生成令牌的预测，从而潜移默化地改变模型的“思维方式”，使其在与用户的互动中逐渐“学习”和“成长”。虽然不会强制模型输出特定词语，但会使其在与特定概念的互动中逐渐偏向该概念相关的联想。这项技术旨在赋予AI模型更主动的行为、更集中的个性和增强的求知欲，最终目标是帮助AI在神经元层面获得某种形式的自我意识。

(github.com)

AI

ADHD患者和普通人背景音乐聆听习惯差异研究

2025-04-08

一项针对910名17至30岁青年的在线调查研究，比较了ADHD患者和神经典型个体在不同认知需求任务中背景音乐聆听习惯及主观影响的差异。结果显示，ADHD组在学习和运动等特定场景下更倾向于使用背景音乐，且更偏好刺激性音乐。然而，两组在背景音乐对认知和情绪功能的主观影响上无显著差异。该研究强调了根据个体唤醒需求和认知资源调整背景音乐使用的重要性，为ADHD患者的音乐干预提供了新的视角。

(www.frontiersin.org)

AI 背景音乐

大型语言模型撞墙：Llama 4的失败与AI行业的“注水”

2025-04-08

Llama 4的发布标志着大型语言模型可能已经触及了其能力的极限。Meta对Llama 4的巨额投资未能带来预期的突破，甚至有传闻称其为了达到预期效果而作弊。这与OpenAI、Google等公司在GPT-5级别AI的研发中遇到的瓶颈相呼应。业内人士普遍对Llama 4的表现感到失望，Meta AI副总裁Joelle Pineau的离职更坐实了这一说法。文章指出，AI行业存在数据泄露和数据污染等问题，一些权威人士对大型语言模型的未来发展过于乐观，忽视了实际应用中的失败案例。

(garymarcus.substack.com)

AI AI瓶颈数据作弊

大型语言模型如何理解代码中的空值？

2025-04-07

近年来，大型语言模型（LLM）在代码生成领域取得了显著进展，但它们是否真正“理解”代码仍是一个悬而未决的问题。本文研究了LLM对代码中空值（nullable）的理解，通过外部评估（代码补全）和内部探测（模型激活分析）两种方法，发现LLM能够学习并应用关于空值的编程规则，但其理解能力会随着规则复杂度和模型参数量的增加而变化。研究还揭示了LLM内部表示空值的方式，以及这种理解能力在模型训练过程中的发展轨迹。

(dmodel.ai)

AI 可空性

大型语言模型的“淘汰赛”：策略、推理与欺骗

2025-04-07

研究人员设计了一款多玩家“淘汰赛”游戏，用于评估大型语言模型（LLM）在社交推理、策略和欺骗方面的能力。游戏中，8个LLM扮演玩家，通过公开和私下对话、结盟和投票来淘汰彼此，最终决出胜负。通过分析对话记录、投票模式和最终排名，研究人员揭示了LLM如何权衡共享知识与隐藏意图，以及如何在关键时刻结盟或背叛。该基准测试超越了简单的对话，创建了一个丰富的环境，迫使模型在公开讨论与秘密联盟之间取得平衡，并运用策略性投票和最终的陪审团辩论来赢得胜利。GPT-4.5 Preview在该基准测试中表现最佳。

(github.com)

AI 策略博弈

DeepMind 的 Dreamer AI 在 Minecraft 中自主挖掘钻石

2025-04-07

Google DeepMind 的研究人员开发了一种名为 Dreamer 的 AI 系统，它能够在无需任何人类指导的情况下，自主学习并在 Minecraft 游戏中收集钻石。这标志着人工智能在泛化能力方面取得了重大突破。Dreamer 通过强化学习和构建世界模型来预测未来场景，从而有效地规划并完成复杂的收集钻石任务，而无需事先了解游戏规则或观看人类玩家的演示。这项研究为创建能够在现实世界中学习和适应的机器人奠定了基础。

(www.nature.com)

AI

大型语言模型的进步：期望与现实的差距

2025-04-06

一家初创公司尝试利用AI模型进行代码安全漏洞扫描，发现自去年六月以来，尽管模型的基准测试分数不断提高，但实际应用效果提升有限。作者认为，大型语言模型的进步并未体现在经济效用和泛化能力上，这与公开报道存在差距。这引发了对AI模型评测方法的质疑，以及对AI实验室可能夸大模型能力的担忧。作者呼吁关注模型的实际应用能力，而非单纯的基准测试分数，并强调在AI应用于社会治理前需完善评估体系。

(www.lesswrong.com)

AI

Foundry：攻克浏览器智能体的可靠性难题

2025-04-06

目前的浏览器智能体技术还不成熟，OpenAI、Anthropic和Google等巨头的成果在实际任务中失败率高达80%以上。Foundry公司致力于构建第一个强大的浏览器智能体模拟器、强化学习训练环境和评估平台，以解决这一问题。通过模拟真实网站（例如DoorDash），Foundry能帮助企业更精准地定位问题，加速智能体的改进，并将不稳定的研究项目转变为可靠的企业级解决方案。Foundry团队由Scale AI的机器学习专家组成，他们正在寻找优秀的全栈工程师加入，共同打造这个具有巨大市场潜力的产品。

(www.ycombinator.com)

AI

QVQ-Max：拥有视觉和智力的AI模型

2025-04-06

QVQ-Max是一个全新的视觉推理模型，它不仅能“看懂”图片和视频，还能进行分析和推理，解决各种问题。从数学题到日常问题，从编程代码到艺术创作，QVQ-Max都展现出令人印象深刻的能力。它能够详细观察图像中的细节，进行深入推理，并灵活应用于各种场景，例如辅助工作、学习和生活。未来，QVQ-Max将进一步提升识别精度、增强多步骤任务处理能力，并扩展交互方式，成为一个真正实用的视觉智能体。

(qwenlm.github.io)

AI

模型上下文协议 (MCP): AI 工具集成的下一个标准？

2025-04-06

模型上下文协议 (MCP) 正在成为大型语言模型 (LLM) 与工具和数据集成的新标准，被誉为“AI 代理的 USB-C”。它允许代理通过标准化 API 连接工具，维护持久会话，运行命令，以及跨工作流程共享上下文。然而，MCP 默认情况下并不安全，随意连接代理到服务器可能导致安全漏洞，例如侧信道攻击，泄露 shell、密钥或基础设施信息。

(elenacross7.medium.com)

AI MCP协议

SeedLM：基于伪随机数生成器的LLM权重压缩方法

2025-04-06

大型语言模型（LLM）运行成本高昂，限制了其广泛部署。Meta研究人员提出了一种名为SeedLM的新型后训练压缩方法，该方法利用伪随机数生成器的种子来编码和压缩模型权重。SeedLM在推理过程中利用线性反馈移位寄存器（LFSR）高效生成随机矩阵，并将其与压缩系数线性组合来重建权重块，从而减少内存访问并利用空闲计算周期，有效加速内存受限任务。与依赖校准数据的方法不同，SeedLM无需数据，并在不同任务中具有良好的泛化能力。实验表明，SeedLM在Llama 3 70B模型上的4位和3位压缩下，零样本精度与现有最先进方法相当甚至更好，性能也与FP16基线相当。FPGA测试进一步表明，随着模型规模的增加，4位SeedLM的速度提升可达FP16 Llama 2/3基线的4倍。

(machinelearning.apple.com)

AI SeedLM

TripoSG：基于大规模修正流模型的高保真3D形状合成

2025-04-06

TripoSG是一个先进的高保真、高质量、高泛化能力的图像到3D生成基础模型。它利用大规模修正流变换器、混合监督训练和高质量数据集，在3D形状生成方面取得了最先进的性能。TripoSG能够生成具有清晰几何特征、精细表面细节和复杂结构的网格，并准确反映输入图像的语义和外观。即使对于具有复杂拓扑结构的具有挑战性的输入，它也能创建一致的形状。该模型已发布15亿参数的修正流模型和VAE，并附带推理代码和交互式演示。

(github.com)

AI

模型签名：保障机器学习模型完整性的新方法

2025-04-05

随着机器学习应用的爆炸式增长，模型安全成为重要议题。该项目旨在通过模型签名技术，保障机器学习模型的完整性和来源可追溯性。它利用Sigstore等工具生成模型签名，并提供CLI和API接口，支持多种签名方法（包括Sigstore、公钥和证书）。用户可自行验证模型的完整性，防止模型在训练后被篡改。该项目还与SLSA（Supply chain Levels for Software Artifacts）整合，进一步加强机器学习模型供应链的安全性。

(pypi.org)

AI 模型安全 Sigstore

Meta发布Llama 4系列多模态AI模型，性能强劲

2025-04-05

Meta最新发布的Llama 4系列AI模型，包括Llama 4 Scout和Llama 4 Maverick，为不同需求的开发者提供了多种选择。Llama 4 Scout拥有170亿活跃参数和1090亿总参数，在多模态领域表现出色。Llama 4 Maverick则拥有170亿活跃参数和400亿总参数，价格更低，性能却超越Llama 3.3 70B，支持12种语言，在图像和文本理解方面表现卓越，非常适合构建复杂的AI应用，尤其擅长图像理解和创意写作。

(groq.com)

AI Llama 4 多模态AI

谷歌开源模型签名库：守护AI供应链安全

2025-04-05

随着大型语言模型的兴起，AI供应链安全成为关注焦点。模型篡改、数据投毒等风险日益突出。为此，谷歌携手NVIDIA和HiddenLayer，在Open Source Security Foundation的支持下，发布了模型签名库的第一个稳定版本。该库利用Sigstore等数字签名技术，允许用户验证应用程序使用的模型是否与开发者创建的模型完全一致，从而确保模型的完整性和来源，有效防范模型在训练、存储、部署等环节中的恶意篡改，提升AI应用的安全性。未来，谷歌计划将此技术扩展到数据集和其他ML相关工件，构建更完善的AI信任生态系统。

(security.googleblog.com)

AI 模型签名

AI医疗的瓶颈：计算能力的极限

2025-04-05

一位研究人员指出，当前用于癌症风险预测等临床工具的准确性很差。AI有潜力利用海量患者数据实现个性化医疗，更早地发现癌症，改进诊断和治疗方案。然而，医疗数据量巨大，传统计算机芯片难以处理，计算能力成为AI在医疗领域发挥最大潜力的瓶颈。虽然研究人员努力优化算法，但硅基芯片技术已接近性能极限，需要新的芯片技术才能实现AI的全部潜力。

(www.schott.com)

AI

分类: AI