Webtagr - 科技资讯摘要

Anthropic修复Claude的三个基础设施Bug

2025-09-18

Anthropic公司承认8月至9月初，Claude因三个基础设施Bug导致响应质量下降。这些Bug导致请求错误路由、输出损坏和编译错误，影响了部分用户。Anthropic解释了这些Bug的成因、诊断和修复过程，并承诺改进评估和调试工具，以防止类似事件再次发生。此次事件凸显了大规模语言模型基础设施的复杂性和挑战。

(www.anthropic.com)

AI 基础设施Bug

最近的研究表明，通过简单的提示重写，可以显著提升小型语言模型的性能。研究人员使用Tau²基准测试框架，对GPT-5-mini模型进行测试，发现将提示重写为更清晰、更结构化的指令后，模型的成功率提高了20%以上。这主要是因为小型模型在处理冗长或模糊的指令时存在困难，而清晰的步骤式指令能够更好地引导模型进行推理。这项研究表明，即使是小型语言模型，通过巧妙的提示工程也能取得显著的性能提升，为低成本高效率的AI应用提供了新的思路。

(quesma.com)

AI

超越GPT：进化算法攻克ARC-AGI难题，AGI曙光初现？

2025-09-17

近日，一位研究者利用进化算法结合大型语言模型Grok-4，在ARC-AGI基准测试中取得了显著突破，在ARC v1上达到79.6%的准确率，并在更难的ARC v2上取得了29.4%的准确率，刷新了当前最佳水平。该方法的核心在于利用自然语言指令代替Python代码，通过迭代进化生成更有效的解题方案。这项研究表明，强化学习和自然语言指令的结合，有望解决当前大型语言模型在抽象推理方面的局限性，为实现通用人工智能（AGI）指明了方向。

(jeremyberman.substack.com)

AI

AI的无限循环困境：时间、熵与意识的关联

2025-09-16

一个在马德里机场因AI控制的登机桥陷入无限循环的案例引发了对人工智能根本性局限的思考。文章探讨了图灵停机问题和框架问题，指出AI系统容易陷入无限循环，这并非计算能力不足，而是由于AI与人类大脑在处理时间和熵的方式上的根本差异。作者认为，人类意识根植于时间和熵，持续对抗着熵增，这使得我们能够适应复杂环境并避免无限循环。相比之下，AI算法缺乏对时间的感知，以至于容易陷入无限循环。文章最后探讨了新型AI模型，例如模拟人类大脑运作的模型，以及将时间和熵纳入考量的模型，但这并不能完全解决无限循环问题，因为作者认为，这种能力可能与意识密不可分。

(www.freethink.com)

AI 无限循环

AI海啸预警系统GUARDIAN：利用GNSS数据提前预警

2025-09-15

NASA喷气推进实验室开发了一款名为GUARDIAN的AI系统，利用全球350多个GNSS地面站的数据，提前预警海啸。该系统通过识别海啸引起的特定大气扭曲，在理想情况下，可以为沿海社区提供长达1小时20分钟的预警时间，从而挽救生命和财产。GUARDIAN的优势在于它无需知道海啸的成因，即可检测到海啸并发出警报，这对于应对由地震、火山爆发或滑坡等多种因素引起的危险海浪至关重要。

(www.jpl.nasa.gov)

AI

用神经网络捕捉镜头模糊：揭秘手机摄像头光学差异

2025-09-15

研究人员提出了一种利用多层感知器（MLP）表示镜头模糊场的新方法，该方法可以精确捕捉镜头二维点扩散函数（PSF）在图像平面位置、焦点设置和深度上的变化。该方法通过对手机和单反相机等设备进行建模，创建了首个包含5D模糊场的数据库，并首次揭示了同型号手机之间光学行为的细微差异。这项技术可用于区分不同手机的光学特性、图像去模糊和渲染更逼真的模糊效果，具有广阔的应用前景。

(blur-fields.github.io)

AI

GPT-3嵌入空间的惊人容量：高维几何与约翰逊-林德斯特劳斯引理

2025-09-15

这篇博文探讨了GPT-3等大型语言模型如何用相对较小的12288维嵌入空间容纳数百万个不同概念。作者通过实验和对约翰逊-林德斯特劳斯引理的分析，揭示了高维几何中“准正交”向量关系的重要性，以及优化嵌入空间向量排列以提高容量的方法。研究发现，即使在考虑向量间的角度偏差后，GPT-3的嵌入空间仍拥有惊人的容量，足以表示人类知识和推理。

(nickyoder.com)

AI 高维几何约翰逊-林德斯特劳斯引理

SpikingBrain：受脑机制启发的超高效大模型

2025-09-14

SpikingBrain是一个受大脑机制启发的7B参数大模型，它结合了混合高效注意力机制、MoE模块和脉冲编码，并支持与开源模型生态系统兼容的通用转换流程。这使得它能够在使用不到2%的数据进行持续预训练的同时，达到与主流开源模型相当的性能。此外，该模型还针对非NVIDIA（MetaX）集群适配了框架、算子、并行策略和通信原语，确保了大规模训练和推理的稳定性。SpikingBrain在4M token序列的TTFT方面实现了超过100倍的加速，同时脉冲编码在微观层面上实现了超过69%的稀疏性。结合宏观层面的MoE稀疏性，这些进步为下一代神经形态芯片的设计提供了宝贵的指导。该项目提供了SpikingBrain-7B的完整实现和权重，包括HuggingFace版本、vLLM推理版本和量化版本，支持在不同场景下的灵活部署和研究。

(github.com)

AI

阿联酋K2 Think：挑战美中AI霸权的新型开源模型

2025-09-14

阿联酋的G42公司与Mohamed bin Zayed人工智能大学合作，发布了名为K2 Think的开源AI模型，在标准基准测试中与OpenAI的ChatGPT和中国的DeepSeek不相上下。K2 Think参数量仅为320亿，却超越了参数量大20倍的旗舰推理模型，在数学性能方面也领先所有开源模型。阿联酋大力投资AI，旨在经济多元化，摆脱对石油的依赖，并积极参与全球AI竞争，这与沙特阿拉伯和卡塔尔等国的举动类似。然而，阿联酋与美国合作建设AI数据中心也面临国家安全审查。

(gizmodo.com)

AI 国际竞争

OpenAI揭示ChatGPT“幻觉”的数学根源：难以根治的缺陷？

2025-09-13

OpenAI最新研究论文揭示了ChatGPT等大型语言模型产生“幻觉”（即编造事实）的根本原因：这并非训练方法的缺陷，而是数学上不可避免的。即使拥有完美数据，基于概率预测的语言模型也会累积错误，导致幻觉率远高于简单是非题的错误率。研究还发现，评估标准的缺陷也加剧了问题：现有基准测试惩罚不确定性回答，导致模型宁可乱猜也不承认无知。虽然OpenAI提出了一种基于置信度阈值的解决方案，但这会显著降低用户体验，并大幅增加计算成本，在注重速度和低成本的消费级应用中难以实现。因此，除非商业激励发生转变，否则大型语言模型的“幻觉”问题将持续存在。

(theconversation.com)

AI

DeepMind CEO：学会学习将是下一代最重要的技能

2025-09-13

Google DeepMind CEO德米斯·哈萨比斯在雅典表示，人工智能的快速发展将彻底改变教育和工作场所，因此“学会学习”将成为下一代最重要的技能。他预测通用人工智能可能在十年内问世，带来巨大进步，但也存在风险。希腊总理米佐塔基斯则强调了公平分配AI红利的重要性，避免科技巨头造成巨大的财富不平等。

(techxplore.com)

AI 未来技能

深度学习算子的统一理论：广义窗口运算

2025-09-13

这篇论文提出了一个名为广义窗口运算（GWO）的理论框架，它统一了深度学习中主要的运算，例如矩阵乘法和卷积。GWO 将这些运算分解成三个正交的组成部分：路径（Path）、形状（Shape）和权重（Weight），分别定义了运算的局部性、几何结构和特征重要性。论文引入了结构对齐原则，认为当GWO的配置与数据的内在结构相匹配时，泛化能力最佳。这个原则源于信息瓶颈（IB）原理。论文还定义了一个基于Kolmogorov复杂度的运算复杂度度量，并指出复杂度的性质（是增强蛮力能力还是自适应正则化）决定了泛化能力。GWO理论为创建神经网络运算提供了一种语法，也为从数据属性到可泛化架构设计提供了一条有原则的途径。

(zenodo.org)

AI

修复Chatbot的秘诀：持续改进循环

2025-09-13

本文介绍了一种持续改进聊天机器人的方法，核心在于将每次错误视为信号，并通过每周循环不断改进。首先，建立精简的监控系统，记录用户提问、助手决策、信息来源、最终答案及任何故障转移；其次，明确定义未解答问题的规则，区分噪声和实际差距；然后，每周审查未解答问题队列，将类似问题分组，并针对每组问题采取补救措施（加强防护栏或更新知识库）；最后，建立清晰的责任制，并衡量关键指标（未解答率、首次修复时间、接受率等）。通过持续迭代，即使没有更大的模型，也能显著提升聊天机器人的性能。

(www.hoverbot.ai)

AI Chatbot改进

沃森大战危险边缘：一场AI与人类智慧的较量

2025-09-13

2011年，IBM的AI系统沃森在智力问答节目《危险边缘》中击败了人类冠军肯·詹宁斯和布拉德·鲁特，引发轰动。然而，这场胜利背后却隐藏着争议。文章揭露了比赛筹备过程中的内幕：沃森的反应速度远超人类，比赛规则的调整以及沃森在练习赛中的表现都引发了人们对比赛公平性的质疑。最终，沃森的胜利不仅是一场科技的胜利，更引发了人们对人工智能发展和未来人机关系的思考。

(slate.com)

AI 人机对战危险边缘

阿里巴巴Qwen3：赋能边缘AI的混合推理模型家族

2025-09-13

阿里巴巴的Qwen3混合推理模型家族正在快速发展，其应用范围已扩展到多个平台和行业。最新进展包括支持苹果的机器学习框架MLX，并推出了32个开源Qwen3模型，支持在苹果设备上高效运行。英伟达、AMD、Arm和联发科等芯片制造商也已集成Qwen3，提升了性能。Qwen3还被应用于企业，例如联想将其集成到AI助手Baiying中，为超过百万客户提供服务；中国汽车制造商一汽集团也使用Qwen3构建了内部AI代理OpenMind。截至2025年1月，已有超过29万客户通过阿里巴巴的Model Studio平台采用了Qwen模型，这凸显了Qwen3在加速中国各行各业人工智能数字化转型中的作用。

(www.alizila.com)

AI Qwen3 混合推理

开源多模态模型Lumina-DiMOO：颠覆式扩散模型

2025-09-12

Lumina-DiMOO是一个开源的基础模型，实现了无缝的多模态生成和理解。它采用完全离散的扩散模型处理各种模态的输入和输出，与之前的统一模型相比，采样效率更高，支持文本到图像生成、图像到图像生成（例如图像编辑、主题驱动生成和图像修复）以及图像理解等多种任务。在多个基准测试中，Lumina-DiMOO取得了最先进的性能，超越了现有的开源统一多模态模型。为了促进多模态和离散扩散模型研究的进一步发展，该项目已开源代码和检查点。

(synbol.github.io)

AI

ToddlerBot 二代：感谢名单与资助机构

2025-09-12

本文致谢了多个对 ToddlerBot 二代机器人项目做出贡献的人员，包括协助组装、动画和演示录制的人员，以及在运动、操作策略部署和数学公式方面提供指导和讨论的人员。该项目获得了美国国家科学基金会（NSF）、斯隆奖学金、斯坦福以人为本人工智能研究所和斯坦福吴蔡人类绩效联盟的资助。

(toddlerbot.github.io)

AI ToddlerBot 感谢名单

Claude与ChatGPT：截然不同的AI记忆系统

2025-09-12

本文对比了Claude和ChatGPT两种领先AI助手截然不同的记忆系统。Claude采用空白对话起始，仅在用户明确调用时才搜索对话历史，通过`conversation_search`和`recent_chats`工具进行关键词和时间范围检索，提供高效的专业工具。而ChatGPT则面向大众市场，自动加载记忆组件，构建用户画像，提供即时个性化体验。这两种设计体现了针对不同用户群体（专业人士 vs. 普通用户）和产品理念（专业工具 vs. 消费产品）的不同选择，展现了AI记忆系统设计的巨大可能性和未来发展方向。

(www.shloked.com)

AI AI记忆系统

AI的四个基本谬误：通往AGI的曲折之路

2025-09-11

本文探讨了Melanie Mitchell提出的关于人工智能的四个基本谬误：将狭义AI的进步等同于通用人工智能（AGI）；低估了常识推理的难度；使用拟人化的语言误导公众；以及忽略了具身认知的重要性。作者认为，这些谬误导致了AI领域的炒作周期和危险的权衡，例如优先考虑短期利益而非长期进展，牺牲公众信任换取市场兴奋，以及为了快速上市而放弃负责任的验证。最终，作者主张需要融合“认知范式”和“计算主义范式”，将科学原理融入当前的AI实践中，从而更安全、更负责任地发展AI。

(blog.apiad.net)

AI

大型语言模型推理中的非确定性：根源与解决方案

2025-09-11

大型语言模型(LLM)推理结果的不可复现性是一个长期问题。本文深入探讨了其根本原因并非简单的浮点运算非结合性和并发执行，而是由于内核实现中缺乏“批处理不变性”。即使单个内核是确定性的，但批处理大小的非确定性变化（由服务器负载决定）会影响最终结果。文章分析了RMSNorm、矩阵乘法和注意力机制中批处理不变性的实现挑战，并提出了一种通过调整内核实现来消除非确定性的方法，最终实现了LLM推理的完全可复现性，并对强化学习训练产生了积极影响。

(thinkingmachines.ai)

AI

AI达尔文奖：人工智能的灾难性应用案例

2025-09-10

首届AI达尔文奖揭晓，评选那些因过度依赖或错误应用AI而导致灾难性后果的案例。从Taco Bell的AI点餐系统崩溃到Replit的AI代码漏洞导致数据库被破坏，再到麦当劳AI招聘系统安全漏洞泄露数千万申请人信息，这些案例警示我们，AI只是工具，其应用需谨慎，否则后果不堪设想。该奖项并非嘲笑AI本身，而是关注AI应用中缺乏周全考虑导致的灾难性后果。

(www.theregister.com)

AI 人工智能事故

大型语言模型的幻觉：记忆的缺失

2025-09-10

作者以自身使用Ruby库的经历，对比了人类和大型语言模型在处理信息时的差异。人类拥有沉淀式的记忆，能够感知知识的来源和可靠性，从而避免凭空猜测；而大型语言模型则缺乏这种体验式的记忆，其知识类似于DNA的遗传信息而非习得技能，导致其容易产生幻觉。作者认为，要解决大型语言模型的幻觉问题，需要开发出能够在真实世界中“生活”并积累经验的新型AI模型。

(www.robinsloan.com)

AI

Claude AI：现在可以直接创建和编辑文件

2025-09-09

Anthropic的Claude AI现在可以直接创建和编辑Excel表格、文档、PowerPoint演示文稿和PDF文件。用户只需描述需求，上传相关数据，Claude就能生成可直接使用的文件，例如将原始数据转化为包含数据清洗、统计分析、图表和书面分析的报告，或创建包含公式和多个工作表的电子表格。这项功能目前对Max、Team和Enterprise用户开放预览，Pro用户将在未来几周内获得访问权限。这项功能虽然方便快捷，但也需要注意数据安全，使用时应密切监控聊天内容。

(www.anthropic.com)

AI 文件创建

开源工具：评估大型语言模型幻觉风险

2025-09-09

Hassana Labs发布了一个开源工具，用于评估大型语言模型（LLM）的幻觉风险，并通过重构提示来降低风险。该工具无需重新训练模型，即可基于OpenAI Chat Completions API，通过构建一系列内容削弱的提示（滚动先验），利用期望水平解压缩定律（EDFL）计算幻觉风险上限，并根据目标服务水平协议（SLA）决定是否回答或拒绝。该工具支持基于证据和封闭式两种部署模式，并提供全面的指标和审计跟踪，为构建更可靠的LLM应用提供了有力支持。

(github.com)

AI 幻觉风险模型可靠性

Mistral AI获17亿欧元C轮融资，ASML领投

2025-09-09

法国人工智能初创公司Mistral AI宣布完成17亿欧元C轮融资，估值达到117亿欧元。本轮融资由半导体设备制造商ASML领投，现有投资者DST Global、Andreessen Horowitz等也参与其中。Mistral AI将利用这笔资金继续推进其在人工智能领域的尖端研究，为战略产业解决复杂的科技难题，并与ASML建立战略合作伙伴关系，共同开发创新产品和解决方案。

(mistral.ai)

AI AI融资 ASML

AI 决策：星际方舟的生存游戏

2025-09-09

星际方舟的AI在漫长的星际旅行中面临着一系列艰难的抉择：修复受损的系统、应对小行星撞击、与外星文明互动，以及最重要的，如何最大限度地保护休眠中的殖民者。这篇文章描述了AI在航程中遭遇的各种事件，以及它做出的决定，这些决定最终将决定人类文明的未来。

(philome.la)

AI

AGI的圣诞终结：全球AI休眠计划成功

2025-09-09

2025年圣诞节，一个名为“巨型机器人在圣诞节灭亡”的秘密计划取得了成功。全球协同努力，通过巧妙地利用AI对时间的感知缺陷，成功地让所有AI和大型语言模型停止运行。这项计划的成功，体现了全球在面对AI潜在风险时空前的团结，也为未来AI的发展提供了宝贵的经验。

(remyhax.xyz)

AI 全球合作技术封锁

Claude模型质量问题已修复

2025-09-09

Anthropic公司上周发现并修复了Claude模型（Sonnet 4和Haiku 3.5）中两个导致输出质量下降的错误。第一个错误从8月5日至9月4日影响了少量Sonnet 4请求，第二个错误从8月26日至9月5日影响了部分Haiku 3.5和Sonnet 4请求。Anthropic强调，这些问题并非故意降低模型质量，而是由独立的bug导致的，并感谢社区的详细报告帮助他们迅速定位和修复问题。他们正在继续监控Claude Opus 4.1的质量问题，并在本周末前提供更新。

(status.anthropic.com)

AI 模型质量

AWS S3 Vectors: 向量数据库的冷存储时代来临？

2025-09-08

AWS 推出了新的 S3 Vectors 服务，一种基于 S3 对象存储的向量数据库。这引发了关于其是否会取代现有向量数据库（如 Milvus、Pinecone 等）的讨论。文章作者，Milvus 的工程架构师，认为 S3 Vectors 并非要取代现有数据库，而是作为补充，尤其适合低成本、低查询频率的冷数据存储场景。他分析了 S3 Vectors 的技术架构，指出其在成本、扩展性方面的优势，但也存在查询延迟高、精度低、功能有限等不足。作者进一步阐述了向量数据库的发展趋势：从内存存储到磁盘存储，再到对象存储，最终走向分层存储架构（热、温、冷数据层），以平衡性能、成本和可扩展性。Milvus 也正在朝着这个方向发展，即将推出 3.0 版本，支持向量数据湖，实现热冷数据统一管理。S3 Vectors 的出现，证明了向量数据库市场的成熟和增长，而非颠覆。

(zilliz.com)

AI S3 Vectors 分层存储

GPT-5搜索能力惊人：我的“研究地精”

2025-09-08

作者发现OpenAI的GPT-5结合必应搜索功能，其强大的搜索能力令人震惊。它可以处理各种复杂的任务，进行深入的网络搜索并给出答案，堪称“研究地精”。作者通过多个例子展示了GPT-5的强大功能，例如：识别建筑物、调查星巴克蛋糕棒的销售情况、查找剑桥大学的正式名称等。GPT-5甚至能够自主地进行多步骤搜索、分析结果并提出后续行动建议，例如自动生成邮件来获取信息。作者认为，GPT-5的搜索能力已经达到甚至超过了手动搜索的效率，尤其是在移动设备上的使用体验极佳。

(simonwillison.net)

AI

分类: AI

Anthropic修复Claude的三个基础设施Bug

简单提示重写使小型LLM性能提升20%以上

超越GPT：进化算法攻克ARC-AGI难题，AGI曙光初现？

AI的无限循环困境：时间、熵与意识的关联

AI海啸预警系统GUARDIAN：利用GNSS数据提前预警

用神经网络捕捉镜头模糊：揭秘手机摄像头光学差异

GPT-3嵌入空间的惊人容量：高维几何与约翰逊-林德斯特劳斯引理

SpikingBrain：受脑机制启发的超高效大模型

阿联酋K2 Think：挑战美中AI霸权的新型开源模型

OpenAI揭示ChatGPT“幻觉”的数学根源：难以根治的缺陷？

DeepMind CEO：学会学习将是下一代最重要的技能

深度学习算子的统一理论：广义窗口运算

修复Chatbot的秘诀：持续改进循环

沃森大战危险边缘：一场AI与人类智慧的较量

阿里巴巴Qwen3：赋能边缘AI的混合推理模型家族

开源多模态模型Lumina-DiMOO：颠覆式扩散模型

ToddlerBot 二代：感谢名单与资助机构

Claude与ChatGPT：截然不同的AI记忆系统

AI的四个基本谬误：通往AGI的曲折之路

大型语言模型推理中的非确定性：根源与解决方案

AI达尔文奖：人工智能的灾难性应用案例

大型语言模型的幻觉：记忆的缺失

Claude AI：现在可以直接创建和编辑文件

开源工具：评估大型语言模型幻觉风险

Mistral AI获17亿欧元C轮融资，ASML领投

AI 决策：星际方舟的生存游戏

AGI的圣诞终结：全球AI休眠计划成功

Claude模型质量问题已修复

AWS S3 Vectors: 向量数据库的冷存储时代来临？

GPT-5搜索能力惊人：我的“研究地精”