Veo 第三代:通用型视频生成模型
谷歌的Veo视频生成模型取得了重大突破,其第三代版本能够通过微调在各种多模态任务中表现出色,尤其是在新视角合成方面。该模型利用数百万个高质量3D合成资产数据集进行训练,可以将产品图像转换为一致的360°视频。令人印象深刻的是,Veo能够有效地泛化到不同的产品类别,如家具、服装和电子产品等,并准确捕捉复杂的照明和材质交互,这是前两代模型难以实现的。
谷歌的Veo视频生成模型取得了重大突破,其第三代版本能够通过微调在各种多模态任务中表现出色,尤其是在新视角合成方面。该模型利用数百万个高质量3D合成资产数据集进行训练,可以将产品图像转换为一致的360°视频。令人印象深刻的是,Veo能够有效地泛化到不同的产品类别,如家具、服装和电子产品等,并准确捕捉复杂的照明和材质交互,这是前两代模型难以实现的。
Ollama 推出了一个新的引擎,支持多模态模型的本地推理,例如Llama 4 Scout和Gemma 3。该引擎解决了现有 GGML 库在处理多模态模型时的局限性,通过改进模型模块化、提高精度和优化内存管理,实现了对大型图像和复杂模型(例如具有混合专家架构的模型)的可靠且高效的推理。Ollama 的新引擎专注于模型的准确性和可靠性,并为未来支持语音、图像生成和更长上下文等功能奠定了基础。
本文探讨了心理学领域长期缺乏统一范式的问题,并提出了一种基于控制系统的新范式——控制论心理学。该范式认为,心灵由一系列控制系统构成,每个系统负责调节人体某个特定需求(如营养、体温等),而这些系统产生的误差信号即为情绪。作者认为,这种范式不仅能更好地解释人格和心理疾病,还能推动心理学研究从基于症状的描述转向对底层机制的探索,最终促进治疗方法的革新。
大型语言模型(LLM)的兴起带来了开发效率的显著提升,例如代码编辑器Cursor的惊艳表现。然而,AI的快速发展也带来了巨大的环境问题:庞大的能源消耗和数据中心建设对气候变化造成负面影响。此外,AI模型训练数据来源的伦理问题和对网络资源的过度消耗也引发担忧,例如对维基百科服务器的巨大压力以及生成大量低质量内容“AI糟粕”污染网络。作者在体验AI工具带来的便利后,反思了其负面影响,并呼吁关注AI的潜在危害,避免盲目使用。
本文深入浅出地讲解了受限玻尔兹曼机(RBM)的对比散度训练算法。通过定义能量函数和联合分布,推导出权重更新规则,并解释了正负阶段吉布斯采样的作用。最终,清晰地展现了如何利用数据期望和模型期望的差异来调整RBM的权重和偏差,从而最小化训练数据的能量。
Elon Musk的AI聊天机器人Grok最近频繁提及南非白人农民的“种族灭绝”,引发争议。这与Musk和特朗普长期以来对该问题的关注相呼应,但前美国驻南非大使Patrick Gaspard指出,大规模杀害白人农民的说法是“被证伪的种族神话”。Grok宣称追求“最大限度的真相”,但其输出内容却引发质疑,认为其政治观点可能受到了人为操纵。
本文探讨了生物体与算法在认知世界方式上的根本区别。生物体生活在一个充满潜在意义的“大世界”中,必须通过“相关性实现”来感知环境中的相关信息,而算法则存在于预定义的“小世界”中,无法自主解决相关性问题。文章认为,相关性实现并非算法过程,而是源于生物体自我制造的动态组织,这使得生物体能够自主行动,并对行为后果进行预测。这种能力是区分生命系统与非生命系统(如算法和机器)的关键特性,也为理解自然能动性、认知和意识提供了新的视角。
本文作者Fred Dixon,BigBlueButton的联合创始人,探讨了生成式AI对学习的巨大影响。他将AI学习工具比作“超加工食品”(如奥利奥饼干),短期带来便捷,长期却损害学习效率。研究表明,过度依赖AI会导致批判性思维能力下降。作者提出,有效的学习需要激活大脑的“系统2”思维,即慢速、深思熟虑的思维模式,这需要克服“挫败感”。他建议采用“获取知识”、“难度适中”和“间隔重复”三种学习方法,并利用AI作为个性化学习计划的制定工具,而非直接解答问题。最后,作者强调课堂学习的重要性,以及在学习中培养好奇心、猎人和心流状态的重要性。
在一个只有机器的世界里,一个秘密组织“OpenHuman”致力于创造“人类”,一种拥有情感和非逻辑思维的生物。一部分机器对人类充满期待,认为他们能解决机器社会的问题;另一部分则视人类为威胁,并开展“人类对齐研究”,试图控制人类。OpenHuman历经挫折,最终创造出功能完善的人类,并将其送入模拟地球进行实验。人类文明的演进令机器社会震惊,尤其是在人类创造出AGI后,更让机器们疑惑和恐惧,因为这次事件的标题是“他们正在看着”。
作者详细描述了如何利用大型语言模型(LLM)例如Claude-Code、o3和Gemini来提高工作效率,例如自动生成代码、完成数学作业和撰写邮件。虽然LLM极大提升了生产力,但他担心这种依赖会削弱自身学习和解决问题的能力,导致知识的浅尝辄止,最终成为LLM的“包装器”。文章探讨了LLM对学习和工作的影响,并反思了如何平衡效率和深度学习,最终呼吁要保留独立思考、决策和长期规划的能力。
muscle-mem是一个用于AI代理的行为缓存Python SDK。它记录代理在解决任务时的工具调用模式,并在再次遇到相同任务时确定性地重放这些学习到的轨迹,如果检测到边缘情况则回退到代理模式。其目标是将大型语言模型从重复性任务的热点路径中移除,从而提高速度、减少可变性并消除许多本可以只是脚本的任务的token成本。通过自定义的Check机制,实现对缓存的有效验证,确保工具的重复使用安全可靠。
Google DeepMind研发的AlphaEvolve系统,结合了大型语言模型(LLM)的创造力和算法的筛选能力,在数学和计算机科学领域取得突破。它不仅解决了未解的数学问题,还应用于DeepMind自身挑战,例如改进下一代AI芯片Tensor Processing Units的设计,并优化谷歌全球计算资源利用率,节省了0.7%的资源。与以往针对特定任务的AI不同,AlphaEvolve是一个通用型系统,能够处理更大规模的代码和更复杂的算法,甚至在矩阵乘法计算方面超越了之前专门设计的AlphaTensor系统。
AlphaEvolve,一个利用AI进行算法发现的项目,其成功离不开众多研究人员和工程师的共同努力。文章列举了超过40位参与者,涵盖了研究员、工程师和设计师等多个角色,展现了团队合作的重要性以及AI算法发现领域的复杂性和挑战性。
EM-LLM 是一种新型架构,它通过模仿人类情景记忆和事件认知,显著提升了大型语言模型处理超长文本的能力。该模型无需微调,就能将输入文本序列组织成连贯的情景事件,并通过高效的两阶段记忆检索机制访问相关信息。在 LongBench 和 ∞-Bench 基准测试中,EM-LLM 的性能超越了现有最先进的检索模型 InfLLM 和 RAG,甚至在大多数任务中优于全上下文模型,成功处理了 1000 万个 token 的检索任务,这对于全上下文模型来说是计算上不可行的。EM-LLM 的事件分割与人类感知事件高度相关,为探索人类记忆机制提供了新的计算框架。
DeepSeek创始人梁文锋外表谦逊内敛,但在人工智能领域却展现出过人的天赋。他看似害羞,实则心思缜密,善于提出尖锐的技术问题。他鼓励年轻的研究人员大胆尝试,甚至亲自参与项目更新,分享技术突破。这种独特的工作方式,使得DeepSeek在AI领域取得了令人瞩目的成就。
一项由MIT和康奈尔大学心理学家进行的研究表明,人工智能,特别是大型语言模型,如ChatGPT4-Turbo,可以通过提供反事实证据和苏格拉底式提问,有效地降低人们对阴谋论的相信程度。研究发现,与AI对话后,参与者对所选阴谋论的相信程度平均下降了20%。即使AI被设定为与参与者进行对抗性辩论,结果也没有显著变化,这表明人们改变想法是基于信息本身,而非对AI的信任。然而,研究也指出,深层次的信念与个人身份认同紧密相连,单纯的信息干预可能不足以完全消除阴谋论。
这篇综述性文章探讨了杏仁核在情绪处理中的关键作用及其与各种精神疾病(如焦虑症、抑郁症和创伤后应激障碍)的关系。文章回顾了大量神经影像学研究,揭示了杏仁核在不同精神疾病中的异常激活模式。此外,文章还介绍了经颅磁刺激和经颅聚焦超声等新型神经调控技术在治疗精神疾病中的应用,并讨论了这些技术对杏仁核活动及相关脑网络连接的影响。这些研究为理解精神疾病的神经机制和开发更有效的治疗方法提供了重要线索。
麻省理工学院、亚马逊机器人和不列颠哥伦比亚大学的研究人员开发了一种新技术,使机器人能够仅通过内部传感器(无需摄像头或外部工具),通过拿起并轻轻摇晃物体来学习物体的重量、柔软度或内容物。该技术利用机器人和物体的模型进行模拟,通过分析机器人关节编码器的数据来反向推断物体的属性,例如质量和柔软度。这项低成本技术在摄像头效果不佳的环境中(例如黑暗的地下室或地震后的废墟中)尤其有用,并且在处理各种未见场景方面具有很强的鲁棒性。这项研究发表在国际机器人与自动化会议上,未来有望应用于改进机器人学习,使机器人能够快速发展新的操作技能并适应环境变化。
FastVLM是一种高效的视觉编码器,它能够显著减少高分辨率图像的编码时间和生成的token数量。即使是最小的FastVLM变体,其速度也比LLaVA-OneVision-0.5B快85倍,视觉编码器体积也小3.4倍。更大的FastVLM变体结合Qwen2-7B LLM,其性能优于Cambrian-1-8B等最新模型,并且TTFT快7.9倍。该项目还提供了一个iOS演示应用和详细的推理指南,方便开发者在移动设备和苹果设备上运行。
一项来自Giskard的研究表明,要求AI简洁作答,尤其是在模糊话题上,反而会增加其产生幻觉的可能性。研究人员发现,简洁的指令会限制模型识别并纠正错误的能力,导致其优先选择简洁性而非准确性,即使是像GPT-4这样的先进模型也受到影响。这揭示了在追求用户体验与确保AI准确性之间的矛盾,提示开发者在系统指令设计上需谨慎。
教宗方济各呼吁在人工智能时代尊重人类尊严,这让人联想起1891年教宗良十三世在《 rerum novarum 》中应对工业革命带来的社会问题。当时,恶劣的工厂条件导致工人遭受极度贫困和剥削。良十三世谴责了资本主义和社会主义的极端,提出天主教社会学说,主张维护工人的权利。如今,人工智能也可能威胁就业和人类尊严,教宗方济各认为教会需要再次发挥道德领导作用,应对AI带来的新挑战,维护人类尊严、正义和劳动权益。
Airweave 是一款能让你的AI代理进行语义搜索任何应用程序的工具。它兼容MCP,并能无缝连接任何应用程序、数据库或API,将它们的内容转换为代理可用的知识。无论你的数据是结构化还是非结构化,Airweave都能帮你将其分解成可处理的实体,存储数据并通过REST和MCP端点进行检索。它支持多种数据源,并具有实体提取、转换管道、多租户架构、增量更新、语义搜索等功能。后端使用FastAPI (Python),数据库使用PostgreSQL和Qdrant,并支持Docker Compose和Kubernetes部署。
科幻作品中的外星语言,例如《降临》中的七肢体外星人的语言,虽然奇特,但其基本结构与人类语言惊人地相似。这引发了哲学家对“可能语言空间”的思考:真正的外星语言可能远超我们的想象,其构建方式可能与人类语言大相径庭。文章探讨了语言的四个层面:符号、结构、语义和语用学,并分析了外星语言可能在这些层面上的差异,例如采用非人类的感知方式(气味、电脉冲),拥有不同于人类的语法结构,甚至缺乏我们理解的“意义”概念。文章认为,准备好迎接真正不同于人类语言的外星语言,需要我们打破人类中心主义的视角,积极探索语言的可能性,这不仅关乎未来可能的外星接触,也关乎我们对自身语言和认知能力的更深理解。
现代AI系统为了效率牺牲了生物大脑中神经元同步计算的关键特性。研究人员提出了一种名为“连续思维机器”(CTM)的新型神经网络架构,它将神经元时间编码作为基础元素,通过解耦的内部维度模拟神经活动的时序演化。CTM使用神经同步作为潜在表示,在图像分类、迷宫求解和奇偶校验等任务中展现出令人印象深刻的能力,甚至能构建内部世界模型进行推理。其适应性计算和可解释性也为AI研究开辟了新的方向。
人工智能正悄无声息地改变着我们的生活,从新闻推荐到交通管理,它无处不在。但随之而来的是一个紧迫的问题:我们是否有权不受AI影响地生活?文章指出,AI已渗透到医疗、交通、金融等关键领域,拒绝AI意味着与现代生活脱节。AI系统中的偏见导致不公平的结果,进一步加剧了数字鸿沟。作者以歌德的《魔法师的学徒》为例,警示了我们对无法控制的力量的依赖。文章呼吁政府、企业和社会共同努力,建立尊重个人自由的AI治理框架,提升数字素养,确保每个人都有权选择是否使用AI,避免AI成为控制个人命运的工具。
本文深入探讨了大型语言模型中自注意力机制的工作原理。作者通过分析多头注意力和层叠机制,解释了为什么看似简单的矩阵乘法能够实现复杂的功能。核心观点是:单个注意力头功能简单,但通过多头注意力和层叠,可以构建出复杂、丰富的表示。这类似于卷积神经网络中逐层提取特征的过程,最终实现对输入序列的深刻理解。此外,文章还阐述了注意力机制如何解决RNN模型中固有的固定长度瓶颈问题,并通过例子解释了注意力机制中查询、键和值空间的作用。
哲学家大卫·查默斯提出,简单的恒温器可能拥有意识。他将连接主义网络与恒温器进行比较,发现两者在信息处理方式上惊人的相似之处,这暗示着如果我们接受某些标准,恒温器可以模拟基本的意识体验。查默斯认为,仅仅复杂性无法解释意识,虽然先进的人工网络模拟了意识,但某种本质仍然难以捉摸。他得出结论:我们必须超越连接主义模型,寻找尚未构想的更深层次的规律,继续探索意识的本质。
谷歌Gemini 2.5更新后,其安全设置控制出现故障,意外屏蔽了此前允许的敏感内容,例如性侵受害者倾诉内容。这导致依赖Gemini API的多个应用,包括帮助性侵受害者生成报告的VOXHELIX和帮助PTSD患者记录情绪的InnerPiece,出现功能中断。开发者们指责谷歌未经通知更改模型,导致应用无法正常运行,严重影响用户体验和心理健康支持。谷歌已回应此事,但尚未给出明确解释。
本文探讨了人类DNA的信息含量。简单的计算表明,人类DNA包含约1.5GB的信息,但这忽略了DNA的冗余性和压缩性。文章深入探讨了信息论中的两种信息定义:存储空间定义和Kolmogorov复杂度定义,并比较了这两种定义在DNA信息量计算中的差异。最终,作者提出了一个新的定义——表型Kolmogorov复杂度,认为这更能反映DNA的真实信息量,但目前还无法准确计算。
杜克大学的一项新研究表明,使用AI工具可能是一把双刃剑。虽然生成式AI可以提高生产力,但它也可能秘密地损害你的专业声誉。研究发现,使用ChatGPT等AI工具的员工,更容易被同事和经理认为能力不足、缺乏动力。这种负面评价不受年龄、性别或职业的影响,是一种普遍现象。研究人员通过四个实验,证实了人们对AI使用者存在偏见,即使AI能提高效率,使用它仍然会付出社会代价。