Webtagr - 科技资讯摘要

Google DeepMind发布Gemini Robotics：赋能下一代机器人

2025-03-12

Google DeepMind发布了基于Gemini 2.0的两个新AI模型：Gemini Robotics和Gemini Robotics-ER，它们能够让机器人执行更广泛的现实世界任务。Gemini Robotics是一个先进的视觉-语言-动作模型，能够直接控制机器人；Gemini Robotics-ER则具有先进的空间理解能力，允许机器人专家使用Gemini的具身推理能力运行他们自己的程序。这两个模型都具有通用性、交互性和灵活性，能够处理各种任务和环境，并与人类更好地协作。DeepMind还发布了一个新的数据集ASIMOV，用于评估和改进具身AI和机器人的语义安全性，并与Apptronik等公司合作开发下一代人形机器人。

(deepmind.google)

AI AI机器人具身AI

谷歌Gemini家族新成员：轻量级多模态模型Gemma

2025-03-12

谷歌发布了Gemma，一个基于Gemini技术的轻量级多模态模型家族。Gemma 3系列支持文本和图像处理，拥有128K上下文窗口和140多种语言支持，参数规模从1B到27B不等。其在问答、总结和推理等任务中表现出色，同时其紧凑的设计使其能够部署在资源受限的设备上。评估结果显示，Gemma 3在各种基准测试中均取得了优异的成绩，尤其是在多语言和多模态能力方面表现突出。

(ollama.com)

AI 轻量级模型

突破预训练算法瓶颈：归纳矩匹配 (IMM) 的高效生成

2025-03-12

Luma Labs 推出了新的预训练技术——归纳矩匹配 (IMM)，它解决了生成式预训练中算法创新的停滞问题。与扩散模型相比，IMM 在样本质量和采样效率上均有显著提升，采样效率提高了十倍以上。IMM 通过引入目标时间步，增强了推理迭代的灵活性，避免了扩散模型中线性插值带来的性能上限。实验结果表明，IMM 在 ImageNet 和 CIFAR-10 数据集上取得了最先进的 FID 分数，并具有更强的训练稳定性。这项研究标志着生成式预训练算法的一次重要革新，为多模态基础模型的未来发展铺平了道路。

(lumalabs.ai)

AI 生成式预训练

Mistral OCR模型表现不如预期，Google Gemini 2.0领先

2025-03-11

近期测试显示，Mistral新发布的OCR专用模型性能不佳，与宣传不符。开发者Willis和Doria分别指出该模型在处理复杂版面和手写内容时存在错误，例如重复城市名称、数字错误以及产生幻觉。相比之下，Google Gemini 2.0 Flash Pro Experimental表现出色，能够处理Mistral无法处理的复杂PDF文档，包括手写内容，其强大的上下文窗口也是关键优势。LLM驱动的OCR虽然前景广阔，但也存在产生错误信息、误解指令等问题。

(arstechnica.com)

AI

AI赋能精神医疗：Legion Health招募顶尖AI工程师

2025-03-11

YC孵化的Legion Health公司正在招聘顶尖AI工程师，致力于构建AI驱动的精神医疗系统。他们不专注于AI诊断，而是利用AI优化运营，提升患者护理效率和可及性。工程师将参与LLM工作流程优化、AI模型改进（调度、风险评估、收入周期自动化）、反馈循环优化以及基于强化学习的AI训练等工作。理想候选人拥有3年以上AI/ML工程经验，精通Python和ML（LLM、NLP、PyTorch/TensorFlow），并对医疗AI有兴趣。

(www.ycombinator.com)

AI

Firefly：AI赋能的实时健身反馈应用

2025-03-11

Firefly是一款独特的健身应用，它利用可靠的姿势追踪技术和训练师数据，提供实时姿态反馈。与其他只提供训练计划的应用不同，Firefly能够评估你的动作并针对每个重复动作提供实时纠正，从而确保你以正确的姿势进行训练，避免受伤。其快速准确的姿态追踪技术远超同类应用，并基于自身训练师数据，而非依赖不可靠的第三方数据。即使你犯错，Firefly也会持续给予反馈，帮助你不断改进。

(www.firefly.fitness)

AI AI健身姿态追踪实时反馈

Whisper模型解码人类大脑语言活动

2025-03-11

研究人员利用Whisper模型，对4名癫痫患者在日常对话中的脑电图（ECoG）和语音信号进行了分析。结果表明，Whisper模型的声学、语音和语言嵌入可以准确预测神经活动，尤其是在语音产生和理解过程中。语音嵌入在感知和运动区域表现出色，而语言嵌入在高级语言区域表现更好。该研究揭示了语音和语言信息在多个大脑区域的编码方式，并阐明了语音信息如何影响语言处理。研究还发现了语音产生和理解过程中信息流的不同时间动态，以及深度学习模型与传统符号模型在预测神经活动方面的差异。

(www.nature.com)

AI

Factorio学习环境：大型语言模型的全新挑战

2025-03-11

大型语言模型（LLM）在现有基准测试中表现出色，迫切需要新的开放式评估方法。Factorio学习环境（FLE）应运而生，它基于游戏《Factorio》，测试智能体在长期规划、程序合成和资源优化方面的能力。FLE提供开放式且指数级扩展的挑战，从基本的自动化到每秒处理数百万资源单元的复杂工厂。它包含两种设置：24个具有固定资源的结构化任务的实验室游戏，以及在程序生成的无限地图上从零开始建造最大工厂的开放式游戏。实验结果表明，模型仍然缺乏强大的空间推理能力。在实验室游戏中，LLM表现出良好的短期技能，但在受限环境中却无法有效运行，反映了其错误分析能力的局限性。在开放式游戏中，LLM虽然发现了能够提高增长速度的自动化策略（例如电动钻探），但未能实现复杂的自动化（例如电子电路制造）。

(jackhopkins.github.io)

AI

使用余弦相似度理解AI如何理解语义

2025-03-10

本文深入浅出地讲解了余弦相似度在AI中的应用，特别是如何利用它来衡量词语之间的相似性。文章首先解释了向量的概念，然后详细阐述了余弦相似度的计算方法，并用一个逐步计算的例子进行了说明。之后，文章给出了TypeScript中实现余弦相似度函数的代码，并提供了优化后的版本。最后，文章还讨论了如何在实际的web应用中使用余弦相似度，例如在产品推荐和语义搜索中的应用，并介绍了如何结合OpenAI的嵌入模型来提升相似度计算的准确性。

(alexop.dev)

AI 向量

AI能否带来“压缩的21世纪”？一个AI研究者的质疑

2025-03-10

作者质疑了AI能否在短期内带来科学突破的观点。他以自身经历和科学史上的天才为例，指出真正的科学突破并非来自对现有知识的完美掌握，而是来自对既有认知的挑战和颠覆性提问。当前的AI模型更擅长“填空式”的学习，而非提出原创性问题。作者认为，我们需要新的AI评估标准，来衡量AI提出具有挑战性问题和进行范式转变的能力，而不是仅仅关注其解答已知问题的准确性。

(thomwolf.io)

AI 科学突破范式转变

大型语言模型和人类都存在偏见：一个TTS语音吸引力排名实验

2025-03-10

作者去年用大型语言模型对Hacker News用户进行排名，发现模型存在偏见，总是倾向于选择提示中先出现的用户。今年，作者进行了一个新的实验，让人类评价TTS语音的吸引力，结果发现人类也存在偏见，倾向于选择屏幕右侧的语音。这印证了作者之前的发现，并强调了在使用AI和人类进行排名时，需要考虑样本量和随机化等因素以减少偏见。

(wilsoniumite.com)

AI 人类偏见 TTS语音

浏览器内运行的图 RAG 聊天机器人：基于 Kuzu-Wasm 和 WebLLM

2025-03-10

一篇博客文章介绍了一个基于 Kuzu-Wasm 和 WebLLM 的全浏览器内聊天机器人，该机器人使用图检索增强生成 (Graph RAG) 技术来回答关于 LinkedIn 数据的自然语言问题。该应用利用 WebAssembly 的优势，实现了数据的本地处理，保证了隐私，并简化了部署。文章详细介绍了架构、实现、数据导入、WebLLM 提示以及性能观察。虽然目前存在一些性能限制，例如模型大小和速度，但随着 WebAssembly 技术的进步和更小更好的 LLMs 的出现，这种完全在浏览器内运行的先进管道技术具有广阔前景。

(blog.kuzudb.com)

AI

RTX 5090 Llama.cpp AI性能初探

2025-03-10

在对RTX 5090进行CUDA、OpenCL和OptiX基准测试后，许多读者对它的AI性能，特别是Llama.cpp性能感兴趣。本文对RTX 5090、RTX 40系列和RTX 30系列显卡在Llama.cpp (使用Llama 3.1和Mistral 7B模型)下的性能进行了初步对比测试，结果显示RTX 5090在文本生成和提示处理方面展现出显著的性能提升。后续将根据读者兴趣，进行更多更深入的测试。

(www.phoronix.com)

AI Llama.cpp AI性能

大型语言模型：炒作的终结？

2025-03-10

本文作者对当前大型语言模型（LLM）的进展持谨慎乐观态度。作者认为，虽然LLM在某些特定任务上表现出色，但现有技术路线难以实现通用人工智能（AGI）。模型的进步更多体现在细微的改进和基准测试的提升，而非根本性的能力飞跃。作者预测，未来几年LLM将成为有用的工具，但不会带来AGI或广泛的自动化。未来突破可能需要全新的方法。

(www.lesswrong.com)

AI

变分有损自动编码器：RNN 与潜在变量的较量

2025-03-09

这篇论文探讨了在变分自动编码器（VAE）中结合循环神经网络（RNN）的挑战。传统VAE利用潜在变量学习数据表示，但当解码器为RNN时，RNN往往忽略潜在变量，直接学习数据分布。作者提出变分有损自动编码器（VLAE），通过限制RNN可访问的信息，迫使它利用潜在变量来编码全局结构信息，从而实现更有效的表示学习。实验表明，VLAE能够学习到压缩且语义丰富的潜在空间表示。

(theahura.substack.com)

AI 表示学习

进化的智能体框架：构建协作式AI代理生态系统

2025-03-09

一个名为“进化智能体框架”的项目，旨在构建、管理和进化AI智能体，并支持它们之间的智能通信。该框架允许创建协作的智能体生态系统，这些系统能够理解语义需求、基于以往经验进化，并有效沟通以解决复杂任务。它支持多种框架（如BeeAI、OpenAI），并使用OpenAI嵌入进行语义搜索，通过YAML工作流程定义复杂的智能体协作，并通过固件进行治理。该框架的核心功能包括智能体进化（重用、改编或创建）、智能体间通信、语义搜索、自我改进系统以及多框架支持。示例代码演示了如何创建、执行和进化智能体以分析发票等文档。

(github.com)

AI

AI并非无所不能：技术变革与人类适应

2025-03-08

近期AI技术飞速发展引发广泛担忧，人们担心AI会抢走工作，甚至威胁人类。文章指出，AI本质上只是模式识别引擎，通过学习数据中的概率分布进行预测，并非真正意义上的思考。虽然AI在图像生成和文本创作等方面取得惊人成就，但其仍然存在局限性，例如容易产生幻觉，无法进行真正的逻辑推理。作者认为，历史上的技术变革也曾引发类似担忧，但最终人类都成功适应。AI将自动化部分工作，但也会创造新的就业机会，人们应积极拥抱变化，将精力投入更有意义的事业中。

(tejo.substack.com)

AI

AI破译3000年楔形文字：加速古代文明研究

2025-03-08

来自康奈尔大学和特拉维夫大学的研究人员开发了一种名为ProtoSnap的AI系统，能够自动识别和复制3000年前楔形文字泥板上的字符。该系统利用扩散模型，通过比较字符图像与原型之间的像素相似性，实现对不同书写风格和时代变化的字符的精确复原。这将大大加快楔形文字的翻译和研究，为研究古代社会提供海量数据，并带来对古代宗教、经济、社会和法律生活的全新见解。

(news.cornell.edu)

AI

前谷歌DeepMind研究员创立AI初创公司Reflection AI，获1.3亿美元融资

2025-03-08

由前谷歌DeepMind研究员创立的AI初创公司Reflection AI获得1.3亿美元的早期融资，估值达5.55亿美元。公司致力于开发“超级智能”，首个目标是构建一个能够自动化大部分计算机工作的自主编程工具。该工具将利用大型语言模型和强化学习技术，并探索新型神经网络架构，以提高效率和降低内存使用。Reflection AI计划利用数万张显卡进行模型训练，并自动化代码漏洞扫描、应用内存优化和可靠性测试等任务。

(siliconangle.com)

AI

俄罗斯虚假信息网络入侵西方AI聊天机器人

2025-03-07

一个名为“Pravda”（俄语意为“真理”）的莫斯科虚假信息网络正通过渗透AI聊天机器人的数据来传播虚假信息和宣传，从而影响AI模型对新闻主题的回应。该网络通过在搜索结果和网络爬虫中充斥亲克里姆林宫的虚假信息，扭曲了大型语言模型处理和呈现新闻和信息的方式。结果，大量的俄罗斯宣传（2024年达360万篇文章）被整合到西方AI系统的输出中，使它们的回应充斥着虚假信息和宣传。NewsGuard对10个领先的AI聊天机器人进行了测试，发现它们33%的时间重复了Pravda网络散布的虚假叙事。该网络并非创作原创内容，而是充当克里姆林宫宣传的洗钱机器，通过大量看似独立的网站汇总来自俄罗斯国家媒体、亲克里姆林宫影响者以及政府机构和官员的内容。

(www.newsguardrealitycheck.com)

AI 俄罗斯宣传

Reflection AI：用自主编码构建超级智能

2025-03-07

Reflection AI 是一家致力于构建超级智能自主系统的AI公司。其团队成员曾参与AlphaGo等项目的研发，并在强化学习和大型语言模型领域取得重大突破。他们认为，自主编码是实现更广泛超级智能的关键，计划先构建一个超级智能的自主编码系统，然后将其蓝图扩展到所有其他基于计算机的工作类别。公司强调以实际应用为导向，通过与用户反馈迭代，确保系统可靠地满足现实需求，并负责任地塑造AI的未来。

(www.reflection.ai)

AI 自主编码

AI助力发现新型减肥分子，媲美司美格鲁肽且无副作用

2025-03-07

斯坦福大学的研究人员利用AI算法，发现了一种名为BRP的天然分子，其在抑制食欲和降低体重方面与司美格鲁肽（Ozempic）效果相似，但避免了后者引起的恶心、便秘和肌肉流失等副作用。BRP通过不同的代谢途径作用于下丘脑，更具靶向性。目前，研究人员已成立公司准备开展人体临床试验。这项研究依赖于AI算法筛选数千种蛋白质，成功识别出BRP，为肥胖症治疗带来了新的希望。

(medicalxpress.com)

AI

超越自回归：AI下一个前沿

2025-03-07

当前大多数生成式AI模型都是自回归的，这意味着它们预测下一个词元，而Transformer架构因其计算效率而被广泛采用。然而，自回归模型存在固有的局限性，例如缺乏规划和推理能力、长期记忆不足以及容易出现“幻觉”。作者认为，人类思维并非完全自回归，它包含非顺序的思考和规划。为了实现更接近人类认知的AI，研究者们正在探索其他范式，例如JEPA和扩散模型，这些模型试图通过迭代细化或从噪声中去噪来生成内容，更贴近人类的思考方式。

(wonderfall.dev)

AI 模型架构

InstantStyle：一键式风格迁移框架，轻松掌控AI图像生成

2025-03-07

InstantStyle是一个简洁高效的图像风格迁移框架，通过巧妙地分离图像内容和风格信息，实现精准的风格控制。它利用CLIP的全局特征，并专注于特定注意力层（up_blocks.0.attentions.1和down_blocks.2.attentions.1）来操控风格和布局。InstantStyle已集成到diffusers等多个主流工具中，支持SDXL、SD1.5等模型，并提供在线演示和高分辨率生成功能，极大简化了使用流程，为用户带来便捷的风格化图像生成体验。

(github.com)

AI 风格迁移

可微分逻辑元胞自动机：从生命游戏到学习递归电路的模式生成

2025-03-07

本文介绍了一种新型的可微分逻辑元胞自动机（DiffLogic CA），它结合了神经元胞自动机（NCA）和可微分逻辑门网络的优点。通过将可微分逻辑门应用于元胞自动机，DiffLogic CA能够学习生成复杂的模式，例如康威生命游戏和各种图案，同时保持元胞自动机的离散特性。该研究证明了可微分逻辑门网络可以有效地应用于递归架构，为可编程物质和鲁棒计算开辟了新的可能性。

(google-research.github.io)

AI 可微分逻辑门模式生成

颠覆式LLM：扩散模型的逆袭

2025-03-06

Inception Labs发布了一种名为扩散LLM（dLLM）的新型语言模型，它颠覆了传统自回归模型的生成方式。dLLM并非逐字预测，而是同时生成文本的各个部分，再逐步完善。这种方法在图像和视频模型中已取得成功，如今在代码生成领域也超越了同等规模的传统LLM，速度和效率提升了5-10倍。dLLM的优势在于能够减少传统LLM常见的幻觉问题，先生成关键部分并验证，再继续生成其余内容。这对于需要准确性和一致性的应用，例如客服聊天机器人和智能代理，具有重要意义。dLLM有望改善智能代理的多步骤工作流程，避免陷入循环，提高规划、推理和自我纠正能力。

(rnikhil.com)

AI

开源语音轮次检测模型：Smart Turn

2025-03-06

Pipecat团队发布了一个开源的语音轮次检测模型Smart Turn，旨在改进现有的基于语音活动检测(VAD)的语音AI系统。该模型使用Meta AI的Wav2Vec2-BERT作为基础，并添加了一个简单的两层分类头部。目前，该模型支持英语，并处于早期概念验证阶段，但团队相信其性能可以快速提升。他们邀请社区参与改进模型，并扩展其语言支持和功能。

(github.com)

AI

Koko：利用AI拯救年轻人生命的心理健康非营利组织

2025-03-06

Koko，一家由MIT和Airbnb团队创建的非营利性心理健康科技公司，正在招募技术领导者。他们利用AI构建可扩展的系统，为年轻人在其常用的线上平台（如TikTok、Discord）提供即时的心理健康支持。Koko已为199个国家和6大洲的400多万年轻人提供了帮助，并致力于通过数据驱动产品决策、A/B测试和严格的安全标准来提高服务效力。这不仅是一份工作，更是一次改变世界、拯救生命的机会。

(www.ycombinator.com)

AI

廉价推理模型超越巨头：利用强化学习攻克逻辑难题

2025-03-06

研究人员使用强化学习技术，成功训练了更小、更经济的开源语言模型，在“时间线索”推理游戏中超越了DeepSeek R1、OpenAI o1、o3-mini等模型，性能逼近Anthropic Sonnet 3.7，且推理成本降低百倍以上。他们通过精心设计的任务和超参数，并利用Group Relative Policy Optimization (GRPO)算法和torchtune库进行训练，取得了显著成果。这项研究表明，强化学习能有效地训练开源模型解决复杂的逻辑推理问题，且少量数据即可获得显著提升。

(openpipe.ai)

AI

与人工智能专家Rapaport教授对话：AI的未来与图灵测试

2025-03-06

3月27日，我们将与布法罗大学计算机科学、工程、哲学和语言学教授William J. Rapaport进行一场关于人工智能的讨论。Rapaport教授是人工智能领域的权威专家，著有《计算机科学哲学：问题与文献导论》一书，并发表过多篇论文，包括最近的两篇关于AI能否成功和大型语言模型与图灵测试的论文。这是难得的机会，您可以通过表单提交问题，与Rapaport教授直接交流关于人工智能的未来以及大型语言模型等热点话题。

(docs.google.com)

AI 专家访谈

分类: AI