Webtagr - 科技资讯摘要

PlayAI Dialog：超越ElevenLabs的全新语音AI模型

2025-02-07

PlayAI发布了其Dialog文本转语音模型，该模型具有多语言能力和卓越性能，在第三方基准测试中，Dialog在情感表达和逼真度方面显著优于ElevenLabs v2.5 Turbo和ElevenLabs Multilingual v2.0。Dialog的低延迟使其适用于语音代理、呼叫中心和游戏等应用。除了英语，Dialog还支持多种语言，包括中文、法语、德语等。其出色的语音质量和低延迟使其成为语音AI领域的突破性产品。

(play.ht)

AI PlayAI

波士顿动力与RAI研究所合作，提升Atlas人形机器人强化学习能力

2025-02-06

波士顿动力公司宣布与自己旗下的机器人与人工智能研究所（RAI研究所）合作，利用强化学习技术提升其电动人形机器人Atlas的能力。此次合作旨在加速Atlas学习新任务的速度，并改进其在真实环境中的运动和交互能力，例如动态奔跑和操控重物。这标志着强化学习在机器人领域的又一重大进展，也凸显了垂直整合机器人AI的重要性，如同Figure AI公司放弃与OpenAI合作的案例一样。

(techcrunch.com)

AI 波士顿动力

用拓扑学解构复杂系统：超越简单的因果关系

2025-02-06

本文介绍了一种基于集合论分支——“整体论”的全新视角，用于理解复杂系统的“高阶结构”。文章以著名的波罗米努环为例，解释了整体大于部分之和的原理。作者提出，通过构建系统的“整体论”，并应用莫比乌斯反演公式，可以将宏观量分解成微观贡献的总和，从而揭示系统中高阶相互作用的本质。文中以基因相互作用和信息论中的互信息为例，展示了该方法的应用，并指出该方法在机器学习和物理学中的应用前景。

(abeljansma.nl)

AI 高阶结构莫比乌斯反演

LLM推理模型的四种构建方法

2025-02-06

本文探讨了增强大型语言模型（LLM）推理能力的四种主要方法：推理时间扩展、纯强化学习、监督微调加强化学习以及模型蒸馏。DeepSeek R1模型的研发过程被用作案例研究，展示了如何通过这些方法构建强大的推理模型，即使在预算有限的情况下也能通过蒸馏技术获得令人印象深刻的结果。文章还比较了DeepSeek R1与OpenAI的o1模型，并讨论了构建经济高效的推理模型的策略。

(magazine.sebastianraschka.com)

AI

AI智能体：学会像人类一样使用电脑

2025-02-06

R1-computer-use项目旨在训练一个AI智能体，使其能够像人类一样使用电脑，包括文件系统、网页浏览器和命令行等。该项目借鉴了DeepSeek-R1的强化学习技术，但不同于传统方法依赖硬编码验证器，它使用神经奖励模型来评估智能体的行为是否正确和有效。训练过程包含多个阶段，从专家演示到基于奖励模型的策略优化和微调，最终目标是创建一个安全可靠、能够完成复杂任务的AI智能体。

(github.com)

AI 计算机交互

廉价复现尖端AI模型：只需50美元！

2025-02-06

斯坦福大学和华盛顿大学的研究人员仅用不到50美元的云计算费用，就训练出一个名为s1的AI推理模型，其性能与OpenAI的o1和DeepSeek的R1等尖端模型相当。他们通过蒸馏法，利用谷歌Gemini 2.0 Flash Thinking Experimental模型的答案和思考过程作为训练数据，并结合少量精心挑选的问题集（1000个），在16个Nvidia H100 GPU上训练不到30分钟就完成了。这一成果引发了人们对AI模型商品化的讨论，也让大型AI实验室感到不安。

(techcrunch.com)

AI 蒸馏法

1890年代的孤独：电影技术与AI时代的预兆

2025-02-05

本文探讨了1890年代电影技术——爱迪生发明的单人观看的Kinetoscope——与当今AI技术，特别是大型语言模型的相似之处。Kinetoscope的单人观看体验，与如今人们在算法推荐和个性化AI助手下的孤独体验异曲同工。文章认为，这两种技术都创造了一种大规模生产的、但却是孤立的、互联的、原子化的体验，预示着一种新的技术孤独，并引发对技术发展方向的反思。

(resobscura.substack.com)

AI

Herculaneum卷轴5：墨迹探测取得重大突破

2025-02-05

来自牛津大学博德利图书馆的Herculaneum卷轴5（P.Herc. 172）的墨迹检测和分割工作取得重大进展。该卷轴墨迹清晰可见，这对于墨迹检测模型的训练大有裨益。尽管文本分割仍需改进，但初步研究表明该卷轴很可能出自哲学家菲洛德莫之手，其中包含“厌恶”、“恐惧”、“生命”等词汇，以及指示其为完整作品而非草稿的符号。卷轴5独特的特征使其有望成为其他卷轴墨迹检测的“罗塞塔石碑”，团队已发布大量分割数据以促进研究。

(scrollprize.substack.com)

AI 墨迹检测卷轴

Gemini 2.0家族大更新：性能提升，多模态能力增强

2025-02-05

Google重磅更新Gemini 2.0系列模型！2.0 Flash正式开放API，开发者可用于生产应用；2.0 Pro实验版问世，主打编码和复杂提示处理能力，拥有200万token的上下文窗口；经济型2.0 Flash-Lite也已推出。所有模型都支持多模态输入文本输出，未来几个月将支持更多模态。此次更新显著提升了模型性能，并扩展了其应用范围，标志着Gemini在AI领域迈出了坚实一步。

(blog.google)

AI Google AI

Netflix百万美元大奖赛：机器学习的里程碑与教训

2025-02-05

2006年，Netflix发起了一场百万美元大奖赛，旨在提升其推荐系统。这场比赛吸引了数千支队伍参与，推动了机器学习领域的进步。比赛结果表明，简单的算法也能取得令人惊讶的效果，更大的模型能获得更好的分数，并且过拟合并非总是问题。然而，这场比赛也留下了一个苦涩的教训：数据隐私问题导致Netflix取消了后续比赛，限制了对推荐系统算法的公开研究，科技公司对数据的控制达到了前所未有的程度。

(www.argmin.net)

AI

只需6美元训练的AI模型：S1挑战LLM巨头

2025-02-05

一篇新论文展示了一个仅需6美元训练成本的AI模型S1，其性能逼近最先进水平，却可在普通笔记本电脑上运行。S1的关键在于其巧妙的“推理时间缩放”方法：通过在LLM的思考过程中插入“Wait”指令，控制其思考时长，从而优化性能。这与Entropix技术异曲同工，都通过干预模型的内部状态来提升性能。S1极度节约数据，仅用1000个精选样本就达到了令人惊讶的效果，这为AI研究带来了新的思路，也引发了关于模型蒸馏和知识产权的讨论。S1的低成本和高效性预示着AI发展将进入一个更加快速迭代的时代。

(timkellogg.me)

AI 推理时间缩放

Toma：用AI赋能1.5万亿美元汽车产业

2025-02-05

Toma公司致力于为1.5万亿美元的汽车行业构建端到端的AI劳动力。他们的目标客户每年在可被AI自动化的流程上花费超过15亿美元，涵盖客户服务、维修订单管理、保修处理和销售等方面。Toma团队由经验丰富的AI应用公司创建者组成，拥有领先的语音AI产品，并通过深入研究汽车经销商积累了丰富的行业经验。公司强调团队合作、责任制和数据驱动决策，提供高度自主的工作环境，让员工充分发挥潜力，为公司发展做出贡献。公司位于旧金山Dogpatch区，每周五天在办公室工作。

(www.ycombinator.com)

AI

谷歌删除AI伦理承诺：不再拒绝为武器和监控开发AI

2025-02-04

谷歌本周在其网站上删除了一项承诺，即不为武器或监控开发AI。此举引发争议，此前谷歌曾公开承诺不追求此类应用。尽管谷歌表示将致力于负责任地开发AI，并遵守国际法和人权原则，但其为美军和以色列军队提供云服务的合同，以及五角大楼AI负责人称谷歌AI加速了美军“杀戮链”的说法，表明谷歌的实际行动与其承诺存在差距，引发了员工内部的抗议和公众的担忧，伦理问题再度成为焦点。

(techcrunch.com)

AI 军事应用

大型语言模型高效训练的炼金术：超越算力极限

2025-02-04

本文深入探讨了大型语言模型（LLM）在海量算力下的高效训练方法。作者指出，即使在数万个加速器上，一些简单的原则也能显著提升模型性能。文章涵盖了模型性能评估、不同规模下并行方案的选择、大型Transformer模型的成本和时间估算、利用特定硬件优势的设计算法等方面。通过对TPU和GPU硬件架构的深入解读，以及Transformer架构的细致分析，读者将能够更好地理解模型缩放的瓶颈，并设计出更高效的模型和算法。

(jax-ml.github.io)

AI 高效训练

OmniHuman-1：单阶段条件化人体动画模型的扩展性思考

2025-02-04

OmniHuman-1 是一种能够生成逼真人体视频的AI模型，支持多种视觉和音频风格，可以生成任意长宽比和体型的人体视频（肖像、半身、全身），其逼真度源于对动作、光照和纹理细节的全面考虑。该模型支持多种音乐风格和多种身体姿势和演唱形式，甚至能处理高音歌曲并根据音乐类型展现不同的动作风格。此外，OmniHuman-1 还支持卡通、人造物体、动物和具有挑战性的姿势等多种输入，并确保运动特性与每种风格的独特特征相匹配。该研究还关注了伦理问题，所用图片和音频均来自公共资源或由模型生成。

(omnihuman-lab.github.io)

AI 人体动画

Radiant Foam：实时可微分光线追踪的突破

2025-02-04

研究人员提出了一种名为Radiant Foam的新型场景表示方法，它结合了体积网格光线追踪算法的效率和splatting方法的重建质量。通过利用Voronoi图和Delaunay三角剖分，Radiant Foam能够实时进行光线追踪，其速度甚至超过了硬件加速的高斯光线追踪方法，并且在重建质量上与高斯splatting方法不相上下。该方法避免了传统光线追踪方法中复杂的加速结构，也不依赖于特殊的硬件或API，仅需标准的可编程GPU即可实现。这项突破有望推动实时渲染技术的进一步发展。

(radfoam.github.io)

AI

OpenAI与软银30亿美元合作，或将开源其模型

2025-02-04

OpenAI周一宣布与日本软银成立合资企业，软银每年将投资30亿美元使用OpenAI软件。此举似乎是对DeepSeek崛起后战略的转变。DeepSeek的AI模型仅需少量算力，挑战了业界对AI扩展的技术和财务需求的普遍认知。OpenAI首席执行官Sam Altman表示正在考虑将产品开源，这可能意味着任何人都可以使用和重新利用OpenAI的模型。Altman在Reddit上表示，OpenAI之前将源代码私有化是“站在了历史的错误一边”。

(www.semafor.com)

AI 软银人工智能开源

黑猩猩也懂你不知道什么：一项关于理论思维的突破性研究

2025-02-04

一项新的研究表明，倭黑猩猩具备“理论思维”能力，能够理解他人认知的局限性并据此采取行动。研究人员设计了一个实验，让倭黑猩猩帮助实验者找到隐藏的零食。结果显示，当倭黑猩猩意识到实验者不知道零食的位置时，它们会更快更频繁地指引实验者。这表明倭黑猩猩能够追踪并回应他人与自身不同的视角，为人类并非唯一拥有理论思维的物种提供了有力证据，也暗示着这种能力可能起源于我们共同的祖先。

(www.newscientist.com)

AI 理论思维倭黑猩猩

开源唇读语音识别框架Auto-AVSR：实现最先进的音频视觉语音识别

2025-02-03

Auto-AVSR是一个开源的端到端音频视觉语音识别 (AV-ASR) 框架，专注于唇读。该框架在LRS3基准测试中实现了视觉语音识别 (VSR) 20.3% 和音频语音识别 (ASR) 1.0% 的字错误率 (WER)。它提供了用于训练、评估和API调用的代码和教程，并支持在多种设备上进行训练。用户可以使用预训练模型或从头开始训练，并能根据自身需求调整超参数。

(github.com)

AI 唇读

欧盟启动OpenEuroLLM项目：打造开源多语言大型语言模型

2025-02-03

20家欧洲顶尖研究机构和公司组成的联盟启动了OpenEuroLLM项目，旨在开发一系列高性能、多语言的大型语言模型（LLM）。该项目旨在增强欧洲在人工智能领域的竞争力，通过开源的方式促进高品质AI技术的普及，并支持欧洲公司和公共机构开发更具影响力的产品和服务。OpenEuroLLM项目遵循欧洲的监管框架，并与开源社区合作，确保模型、软件、数据和评估的完全开放性，以满足特定行业和公共部门的需求，同时保护语言和文化多样性。

(openeurollm.eu)

AI

1979年IBM内部培训资料：计算机无法问责

2025-02-03

一篇1979年IBM内部培训的传奇页面在社交媒体上引起热议，其核心观点是“计算机无法承担责任，因此绝不能做出管理决策”。该页面的原始来源已不可考，据称曾被洪水冲毁。这一论点在AI时代显得尤为贴切，引发了人们对人工智能责任和决策权的思考。

(simonwillison.net)

AI 历史文档

s1: 简易测试时缩放，实现强大的推理性能

2025-02-03

这篇论文介绍了s1，一种简单的测试时缩放方法，仅需1000个示例和预算强制即可实现与o1-preview相当的强大推理性能。该方法通过巧妙的测试时策略，在大型语言模型上实现了显著的性能提升，相关代码和数据已开源，方便研究者复现和进一步探索。

(github.com)

AI 推理性能测试时缩放

对抗AI越狱：Anthropic的宪法分类器

2025-02-03

Anthropic团队研发了一种名为“宪法分类器”的AI安全防御系统，有效对抗各种AI越狱攻击。该系统通过合成数据训练输入和输出分类器，识别并阻止有害内容，在数千小时的人工红队测试中表现出色，极大降低了越狱成功率。尽管早期版本存在拒绝对话率高和计算成本大的问题，但更新版本已显著改善，仅略微提高了拒绝对话率和计算成本。目前，Anthropic提供了一个限时公开演示，邀请安全专家参与红队测试，进一步提升系统安全性，为未来更强大AI模型的安全部署铺平道路。

(www.anthropic.com)

AI 越狱防御宪法分类器

Klarity：洞察生成模型的不确定性

2025-02-03

Klarity是一个用于分析生成模型输出不确定性的工具。它结合了原始概率分析和语义理解，能够深入了解文本生成过程中模型的行为。该库提供双熵分析、语义聚类和结构化输出等功能，并使用单独的模型进行分析，提供人类可读的见解。Klarity支持Hugging Face Transformers，并计划支持更多框架和模型。

(github.com)

AI 不确定性分析

高速人脸追踪与透镜位移同轴设置实现感知对齐动态面部投影映射

2025-02-03

研究人员提出了一种新颖的高速动态面部投影映射(DFPM)系统，该系统利用高速人脸追踪和透镜位移同轴投影仪-摄像机设置，显著减少了投影图像与目标面部之间的错位伪影。高速人脸追踪方法采用基于裁剪区域限制的插值/外推方法进行人脸检测，并结合快速回归树集成(ERT)和辅助检测，实现0.107毫秒的快速结果。透镜位移同轴设置则确保了投影仪和摄像机之间的高光学一致性，在1米到2米深度范围内仅产生1.274像素的误差。该系统实现了几乎完美的人类视觉感知对齐，为化妆和娱乐行业带来了更沉浸式的体验。

(www.vision.ict.e.titech.ac.jp)

AI 动态面部投影映射人脸追踪

贝叶斯认知论入门教程：信念、证据与合理性

2025-02-03

本文提供了一个贝叶斯认知论的入门教程，探讨了其核心规范：概率论和条件化原则。教程通过爱丁顿的日食观测案例，阐述了如何利用贝叶斯方法更新对假设的置信度。文章进一步讨论了贝叶斯学派内部关于先验概率、相干性以及条件化原则适用性的不同观点，并介绍了荷兰赌注论证、精确估计论证以及比较概率论证等不同基础论证方法。最后，文章还探讨了贝叶斯方法的理想化问题以及其在科学中的应用。

(plato.stanford.edu)

AI 贝叶斯认知论条件化原则

真思考与假思考：在AI时代保持清醒

2025-02-03

本文探讨了“真思考”与“假思考”的差异。作者认为，“真思考”并非简单地指对具体事物的思考，而是一种更深入、更具洞察力的思维方式，它关注的是对世界的真实理解，而非停留在抽象概念或既有框架中。文章以AI风险、哲学、辩论等为例，阐述了“真思考”的几个维度，并提出了一些培养“真思考”能力的方法，例如放慢速度、追随好奇心、关注思考的动机等。作者呼吁在AI时代保持清醒，避免陷入“假思考”的陷阱，真正地理解并应对即将到来的变化。

(joecarlsmith.com)

AI 真思考 AI时代

TopoNets：模拟大脑拓扑结构的高性能视觉和语言模型

2025-02-03

研究人员提出了一种名为TopoLoss的新方法，该方法能够在不显著降低模型性能的情况下，将类似大脑的拓扑结构引入领先的AI架构（卷积网络和Transformer）。由此产生的模型TopoNets，是目前为止性能最高的有监督拓扑神经网络。TopoLoss易于安装和使用，实验结果表明，TopoNets在保持高性能的同时，展现出与大脑相似的空间拓扑结构，并能够产生稀疏、参数高效的语言模型。更重要的是，TopoNets在图像识别中展现出与大脑视觉皮层相似的区域选择性，在语言模型中也展现出类似大脑神经元的时序整合窗口特性。

(toponets.github.io)

AI

OpenAI的「草莓」计划：赋予AI深度推理能力

2025-02-03

OpenAI正在秘密研发代号为“Strawberry”的AI项目，旨在突破当前AI模型的推理能力瓶颈。该项目旨在使AI能够自主规划，在互联网上进行深度研究，而非仅仅被动地回答问题。内部文件显示，“Strawberry”模型将通过一种特殊的后期训练方法，结合自主学习和规划能力，实现对复杂问题的可靠解决。此举被视为AI领域的一大突破，有望推动AI在科学发现、软件开发等领域的应用，但也引发了对未来AI能力的伦理思考。

(economictimes.indiatimes.com)

AI

科幻作家特德·姜谈AI与技术未来

2025-02-02

本文是Julien Crockett对科幻大师特德·姜的访谈，探讨了姜的创作灵感、对AI的批判性视角以及他对技术未来发展方向的担忧。姜认为当前的AI，特别是大型语言模型，更像互联网的低分辨率图像，缺乏可靠性和真正的理解能力。他强调了人类与工具的关系，以及人类对工具中看到自身特性的倾向。访谈还涉及到语言的本质、艺术创作中AI的作用以及科技发展中伦理问题的思考。姜对技术的乐观态度是谨慎的，他认为我们需要关注潜在的负面影响，并努力减轻其危害。

(lareviewofbooks.org)

AI

分类: AI