分类: AI

Google DeepMind发布Gemini Robotics:赋能下一代机器人

2025-03-12
Google DeepMind发布Gemini Robotics:赋能下一代机器人

Google DeepMind发布了基于Gemini 2.0的两个新AI模型:Gemini Robotics和Gemini Robotics-ER,它们能够让机器人执行更广泛的现实世界任务。Gemini Robotics是一个先进的视觉-语言-动作模型,能够直接控制机器人;Gemini Robotics-ER则具有先进的空间理解能力,允许机器人专家使用Gemini的具身推理能力运行他们自己的程序。这两个模型都具有通用性、交互性和灵活性,能够处理各种任务和环境,并与人类更好地协作。DeepMind还发布了一个新的数据集ASIMOV,用于评估和改进具身AI和机器人的语义安全性,并与Apptronik等公司合作开发下一代人形机器人。

谷歌Gemini家族新成员:轻量级多模态模型Gemma

2025-03-12
谷歌Gemini家族新成员:轻量级多模态模型Gemma

谷歌发布了Gemma,一个基于Gemini技术的轻量级多模态模型家族。Gemma 3系列支持文本和图像处理,拥有128K上下文窗口和140多种语言支持,参数规模从1B到27B不等。其在问答、总结和推理等任务中表现出色,同时其紧凑的设计使其能够部署在资源受限的设备上。评估结果显示,Gemma 3在各种基准测试中均取得了优异的成绩,尤其是在多语言和多模态能力方面表现突出。

突破预训练算法瓶颈:归纳矩匹配 (IMM) 的高效生成

2025-03-12
突破预训练算法瓶颈:归纳矩匹配 (IMM) 的高效生成

Luma Labs 推出了新的预训练技术——归纳矩匹配 (IMM),它解决了生成式预训练中算法创新的停滞问题。与扩散模型相比,IMM 在样本质量和采样效率上均有显著提升,采样效率提高了十倍以上。IMM 通过引入目标时间步,增强了推理迭代的灵活性,避免了扩散模型中线性插值带来的性能上限。实验结果表明,IMM 在 ImageNet 和 CIFAR-10 数据集上取得了最先进的 FID 分数,并具有更强的训练稳定性。这项研究标志着生成式预训练算法的一次重要革新,为多模态基础模型的未来发展铺平了道路。

Mistral OCR模型表现不如预期,Google Gemini 2.0领先

2025-03-11
Mistral OCR模型表现不如预期,Google Gemini 2.0领先

近期测试显示,Mistral新发布的OCR专用模型性能不佳,与宣传不符。开发者Willis和Doria分别指出该模型在处理复杂版面和手写内容时存在错误,例如重复城市名称、数字错误以及产生幻觉。相比之下,Google Gemini 2.0 Flash Pro Experimental表现出色,能够处理Mistral无法处理的复杂PDF文档,包括手写内容,其强大的上下文窗口也是关键优势。LLM驱动的OCR虽然前景广阔,但也存在产生错误信息、误解指令等问题。

AI

AI赋能精神医疗:Legion Health招募顶尖AI工程师

2025-03-11
AI赋能精神医疗:Legion Health招募顶尖AI工程师

YC孵化的Legion Health公司正在招聘顶尖AI工程师,致力于构建AI驱动的精神医疗系统。他们不专注于AI诊断,而是利用AI优化运营,提升患者护理效率和可及性。工程师将参与LLM工作流程优化、AI模型改进(调度、风险评估、收入周期自动化)、反馈循环优化以及基于强化学习的AI训练等工作。理想候选人拥有3年以上AI/ML工程经验,精通Python和ML(LLM、NLP、PyTorch/TensorFlow),并对医疗AI有兴趣。

AI

Firefly:AI赋能的实时健身反馈应用

2025-03-11

Firefly是一款独特的健身应用,它利用可靠的姿势追踪技术和训练师数据,提供实时姿态反馈。与其他只提供训练计划的应用不同,Firefly能够评估你的动作并针对每个重复动作提供实时纠正,从而确保你以正确的姿势进行训练,避免受伤。其快速准确的姿态追踪技术远超同类应用,并基于自身训练师数据,而非依赖不可靠的第三方数据。即使你犯错,Firefly也会持续给予反馈,帮助你不断改进。

Whisper模型解码人类大脑语言活动

2025-03-11
Whisper模型解码人类大脑语言活动

研究人员利用Whisper模型,对4名癫痫患者在日常对话中的脑电图(ECoG)和语音信号进行了分析。结果表明,Whisper模型的声学、语音和语言嵌入可以准确预测神经活动,尤其是在语音产生和理解过程中。语音嵌入在感知和运动区域表现出色,而语言嵌入在高级语言区域表现更好。该研究揭示了语音和语言信息在多个大脑区域的编码方式,并阐明了语音信息如何影响语言处理。研究还发现了语音产生和理解过程中信息流的不同时间动态,以及深度学习模型与传统符号模型在预测神经活动方面的差异。

AI

Factorio学习环境:大型语言模型的全新挑战

2025-03-11

大型语言模型(LLM)在现有基准测试中表现出色,迫切需要新的开放式评估方法。Factorio学习环境(FLE)应运而生,它基于游戏《Factorio》,测试智能体在长期规划、程序合成和资源优化方面的能力。FLE提供开放式且指数级扩展的挑战,从基本的自动化到每秒处理数百万资源单元的复杂工厂。它包含两种设置:24个具有固定资源的结构化任务的实验室游戏,以及在程序生成的无限地图上从零开始建造最大工厂的开放式游戏。实验结果表明,模型仍然缺乏强大的空间推理能力。在实验室游戏中,LLM表现出良好的短期技能,但在受限环境中却无法有效运行,反映了其错误分析能力的局限性。在开放式游戏中,LLM虽然发现了能够提高增长速度的自动化策略(例如电动钻探),但未能实现复杂的自动化(例如电子电路制造)。

AI

使用余弦相似度理解AI如何理解语义

2025-03-10
使用余弦相似度理解AI如何理解语义

本文深入浅出地讲解了余弦相似度在AI中的应用,特别是如何利用它来衡量词语之间的相似性。文章首先解释了向量的概念,然后详细阐述了余弦相似度的计算方法,并用一个逐步计算的例子进行了说明。之后,文章给出了TypeScript中实现余弦相似度函数的代码,并提供了优化后的版本。最后,文章还讨论了如何在实际的web应用中使用余弦相似度,例如在产品推荐和语义搜索中的应用,并介绍了如何结合OpenAI的嵌入模型来提升相似度计算的准确性。

AI 向量

AI能否带来“压缩的21世纪”?一个AI研究者的质疑

2025-03-10

作者质疑了AI能否在短期内带来科学突破的观点。他以自身经历和科学史上的天才为例,指出真正的科学突破并非来自对现有知识的完美掌握,而是来自对既有认知的挑战和颠覆性提问。当前的AI模型更擅长“填空式”的学习,而非提出原创性问题。作者认为,我们需要新的AI评估标准,来衡量AI提出具有挑战性问题和进行范式转变的能力,而不是仅仅关注其解答已知问题的准确性。

大型语言模型和人类都存在偏见:一个TTS语音吸引力排名实验

2025-03-10

作者去年用大型语言模型对Hacker News用户进行排名,发现模型存在偏见,总是倾向于选择提示中先出现的用户。今年,作者进行了一个新的实验,让人类评价TTS语音的吸引力,结果发现人类也存在偏见,倾向于选择屏幕右侧的语音。这印证了作者之前的发现,并强调了在使用AI和人类进行排名时,需要考虑样本量和随机化等因素以减少偏见。

浏览器内运行的图 RAG 聊天机器人:基于 Kuzu-Wasm 和 WebLLM

2025-03-10
浏览器内运行的图 RAG 聊天机器人:基于 Kuzu-Wasm 和 WebLLM

一篇博客文章介绍了一个基于 Kuzu-Wasm 和 WebLLM 的全浏览器内聊天机器人,该机器人使用图检索增强生成 (Graph RAG) 技术来回答关于 LinkedIn 数据的自然语言问题。该应用利用 WebAssembly 的优势,实现了数据的本地处理,保证了隐私,并简化了部署。文章详细介绍了架构、实现、数据导入、WebLLM 提示以及性能观察。虽然目前存在一些性能限制,例如模型大小和速度,但随着 WebAssembly 技术的进步和更小更好的 LLMs 的出现,这种完全在浏览器内运行的先进管道技术具有广阔前景。

AI

RTX 5090 Llama.cpp AI性能初探

2025-03-10

在对RTX 5090进行CUDA、OpenCL和OptiX基准测试后,许多读者对它的AI性能,特别是Llama.cpp性能感兴趣。本文对RTX 5090、RTX 40系列和RTX 30系列显卡在Llama.cpp (使用Llama 3.1和Mistral 7B模型)下的性能进行了初步对比测试,结果显示RTX 5090在文本生成和提示处理方面展现出显著的性能提升。后续将根据读者兴趣,进行更多更深入的测试。

大型语言模型:炒作的终结?

2025-03-10
大型语言模型:炒作的终结?

本文作者对当前大型语言模型(LLM)的进展持谨慎乐观态度。作者认为,虽然LLM在某些特定任务上表现出色,但现有技术路线难以实现通用人工智能(AGI)。模型的进步更多体现在细微的改进和基准测试的提升,而非根本性的能力飞跃。作者预测,未来几年LLM将成为有用的工具,但不会带来AGI或广泛的自动化。未来突破可能需要全新的方法。

AI

变分有损自动编码器:RNN 与潜在变量的较量

2025-03-09
变分有损自动编码器:RNN 与潜在变量的较量

这篇论文探讨了在变分自动编码器(VAE)中结合循环神经网络(RNN)的挑战。传统VAE利用潜在变量学习数据表示,但当解码器为RNN时,RNN往往忽略潜在变量,直接学习数据分布。作者提出变分有损自动编码器(VLAE),通过限制RNN可访问的信息,迫使它利用潜在变量来编码全局结构信息,从而实现更有效的表示学习。实验表明,VLAE能够学习到压缩且语义丰富的潜在空间表示。

进化的智能体框架:构建协作式AI代理生态系统

2025-03-09
进化的智能体框架:构建协作式AI代理生态系统

一个名为“进化智能体框架”的项目,旨在构建、管理和进化AI智能体,并支持它们之间的智能通信。该框架允许创建协作的智能体生态系统,这些系统能够理解语义需求、基于以往经验进化,并有效沟通以解决复杂任务。它支持多种框架(如BeeAI、OpenAI),并使用OpenAI嵌入进行语义搜索,通过YAML工作流程定义复杂的智能体协作,并通过固件进行治理。该框架的核心功能包括智能体进化(重用、改编或创建)、智能体间通信、语义搜索、自我改进系统以及多框架支持。示例代码演示了如何创建、执行和进化智能体以分析发票等文档。

AI

AI并非无所不能:技术变革与人类适应

2025-03-08
AI并非无所不能:技术变革与人类适应

近期AI技术飞速发展引发广泛担忧,人们担心AI会抢走工作,甚至威胁人类。文章指出,AI本质上只是模式识别引擎,通过学习数据中的概率分布进行预测,并非真正意义上的思考。虽然AI在图像生成和文本创作等方面取得惊人成就,但其仍然存在局限性,例如容易产生幻觉,无法进行真正的逻辑推理。作者认为,历史上的技术变革也曾引发类似担忧,但最终人类都成功适应。AI将自动化部分工作,但也会创造新的就业机会,人们应积极拥抱变化,将精力投入更有意义的事业中。

AI

AI破译3000年楔形文字:加速古代文明研究

2025-03-08
AI破译3000年楔形文字:加速古代文明研究

来自康奈尔大学和特拉维夫大学的研究人员开发了一种名为ProtoSnap的AI系统,能够自动识别和复制3000年前楔形文字泥板上的字符。该系统利用扩散模型,通过比较字符图像与原型之间的像素相似性,实现对不同书写风格和时代变化的字符的精确复原。这将大大加快楔形文字的翻译和研究,为研究古代社会提供海量数据,并带来对古代宗教、经济、社会和法律生活的全新见解。

AI

前谷歌DeepMind研究员创立AI初创公司Reflection AI,获1.3亿美元融资

2025-03-08
前谷歌DeepMind研究员创立AI初创公司Reflection AI,获1.3亿美元融资

由前谷歌DeepMind研究员创立的AI初创公司Reflection AI获得1.3亿美元的早期融资,估值达5.55亿美元。公司致力于开发“超级智能”,首个目标是构建一个能够自动化大部分计算机工作的自主编程工具。该工具将利用大型语言模型和强化学习技术,并探索新型神经网络架构,以提高效率和降低内存使用。Reflection AI计划利用数万张显卡进行模型训练,并自动化代码漏洞扫描、应用内存优化和可靠性测试等任务。

AI

俄罗斯虚假信息网络入侵西方AI聊天机器人

2025-03-07
俄罗斯虚假信息网络入侵西方AI聊天机器人

一个名为“Pravda”(俄语意为“真理”)的莫斯科虚假信息网络正通过渗透AI聊天机器人的数据来传播虚假信息和宣传,从而影响AI模型对新闻主题的回应。该网络通过在搜索结果和网络爬虫中充斥亲克里姆林宫的虚假信息,扭曲了大型语言模型处理和呈现新闻和信息的方式。结果,大量的俄罗斯宣传(2024年达360万篇文章)被整合到西方AI系统的输出中,使它们的回应充斥着虚假信息和宣传。NewsGuard对10个领先的AI聊天机器人进行了测试,发现它们33%的时间重复了Pravda网络散布的虚假叙事。该网络并非创作原创内容,而是充当克里姆林宫宣传的洗钱机器,通过大量看似独立的网站汇总来自俄罗斯国家媒体、亲克里姆林宫影响者以及政府机构和官员的内容。

Reflection AI:用自主编码构建超级智能

2025-03-07
Reflection AI:用自主编码构建超级智能

Reflection AI 是一家致力于构建超级智能自主系统的AI公司。其团队成员曾参与AlphaGo等项目的研发,并在强化学习和大型语言模型领域取得重大突破。他们认为,自主编码是实现更广泛超级智能的关键,计划先构建一个超级智能的自主编码系统,然后将其蓝图扩展到所有其他基于计算机的工作类别。公司强调以实际应用为导向,通过与用户反馈迭代,确保系统可靠地满足现实需求,并负责任地塑造AI的未来。

AI助力发现新型减肥分子,媲美司美格鲁肽且无副作用

2025-03-07
AI助力发现新型减肥分子,媲美司美格鲁肽且无副作用

斯坦福大学的研究人员利用AI算法,发现了一种名为BRP的天然分子,其在抑制食欲和降低体重方面与司美格鲁肽(Ozempic)效果相似,但避免了后者引起的恶心、便秘和肌肉流失等副作用。BRP通过不同的代谢途径作用于下丘脑,更具靶向性。目前,研究人员已成立公司准备开展人体临床试验。这项研究依赖于AI算法筛选数千种蛋白质,成功识别出BRP,为肥胖症治疗带来了新的希望。

AI

超越自回归:AI下一个前沿

2025-03-07

当前大多数生成式AI模型都是自回归的,这意味着它们预测下一个词元,而Transformer架构因其计算效率而被广泛采用。然而,自回归模型存在固有的局限性,例如缺乏规划和推理能力、长期记忆不足以及容易出现“幻觉”。作者认为,人类思维并非完全自回归,它包含非顺序的思考和规划。为了实现更接近人类认知的AI,研究者们正在探索其他范式,例如JEPA和扩散模型,这些模型试图通过迭代细化或从噪声中去噪来生成内容,更贴近人类的思考方式。

InstantStyle:一键式风格迁移框架,轻松掌控AI图像生成

2025-03-07
InstantStyle:一键式风格迁移框架,轻松掌控AI图像生成

InstantStyle是一个简洁高效的图像风格迁移框架,通过巧妙地分离图像内容和风格信息,实现精准的风格控制。它利用CLIP的全局特征,并专注于特定注意力层(up_blocks.0.attentions.1和down_blocks.2.attentions.1)来操控风格和布局。InstantStyle已集成到diffusers等多个主流工具中,支持SDXL、SD1.5等模型,并提供在线演示和高分辨率生成功能,极大简化了使用流程,为用户带来便捷的风格化图像生成体验。

可微分逻辑元胞自动机:从生命游戏到学习递归电路的模式生成

2025-03-07

本文介绍了一种新型的可微分逻辑元胞自动机(DiffLogic CA),它结合了神经元胞自动机(NCA)和可微分逻辑门网络的优点。通过将可微分逻辑门应用于元胞自动机,DiffLogic CA能够学习生成复杂的模式,例如康威生命游戏和各种图案,同时保持元胞自动机的离散特性。该研究证明了可微分逻辑门网络可以有效地应用于递归架构,为可编程物质和鲁棒计算开辟了新的可能性。

颠覆式LLM:扩散模型的逆袭

2025-03-06

Inception Labs发布了一种名为扩散LLM(dLLM)的新型语言模型,它颠覆了传统自回归模型的生成方式。dLLM并非逐字预测,而是同时生成文本的各个部分,再逐步完善。这种方法在图像和视频模型中已取得成功,如今在代码生成领域也超越了同等规模的传统LLM,速度和效率提升了5-10倍。dLLM的优势在于能够减少传统LLM常见的幻觉问题,先生成关键部分并验证,再继续生成其余内容。这对于需要准确性和一致性的应用,例如客服聊天机器人和智能代理,具有重要意义。dLLM有望改善智能代理的多步骤工作流程,避免陷入循环,提高规划、推理和自我纠正能力。

AI

开源语音轮次检测模型:Smart Turn

2025-03-06
开源语音轮次检测模型:Smart Turn

Pipecat团队发布了一个开源的语音轮次检测模型Smart Turn,旨在改进现有的基于语音活动检测(VAD)的语音AI系统。该模型使用Meta AI的Wav2Vec2-BERT作为基础,并添加了一个简单的两层分类头部。目前,该模型支持英语,并处于早期概念验证阶段,但团队相信其性能可以快速提升。他们邀请社区参与改进模型,并扩展其语言支持和功能。

AI

Koko:利用AI拯救年轻人生命的心理健康非营利组织

2025-03-06
Koko:利用AI拯救年轻人生命的心理健康非营利组织

Koko,一家由MIT和Airbnb团队创建的非营利性心理健康科技公司,正在招募技术领导者。他们利用AI构建可扩展的系统,为年轻人在其常用的线上平台(如TikTok、Discord)提供即时的心理健康支持。Koko已为199个国家和6大洲的400多万年轻人提供了帮助,并致力于通过数据驱动产品决策、A/B测试和严格的安全标准来提高服务效力。这不仅是一份工作,更是一次改变世界、拯救生命的机会。

AI

廉价推理模型超越巨头:利用强化学习攻克逻辑难题

2025-03-06
廉价推理模型超越巨头:利用强化学习攻克逻辑难题

研究人员使用强化学习技术,成功训练了更小、更经济的开源语言模型,在“时间线索”推理游戏中超越了DeepSeek R1、OpenAI o1、o3-mini等模型,性能逼近Anthropic Sonnet 3.7,且推理成本降低百倍以上。他们通过精心设计的任务和超参数,并利用Group Relative Policy Optimization (GRPO)算法和torchtune库进行训练,取得了显著成果。这项研究表明,强化学习能有效地训练开源模型解决复杂的逻辑推理问题,且少量数据即可获得显著提升。

AI

与人工智能专家Rapaport教授对话:AI的未来与图灵测试

2025-03-06
与人工智能专家Rapaport教授对话:AI的未来与图灵测试

3月27日,我们将与布法罗大学计算机科学、工程、哲学和语言学教授William J. Rapaport进行一场关于人工智能的讨论。Rapaport教授是人工智能领域的权威专家,著有《计算机科学哲学:问题与文献导论》一书,并发表过多篇论文,包括最近的两篇关于AI能否成功和大型语言模型与图灵测试的论文。这是难得的机会,您可以通过表单提交问题,与Rapaport教授直接交流关于人工智能的未来以及大型语言模型等热点话题。

1 2 30 31 32 34 36 37 38 51 52