深度学习中的表征乐观主义:破碎纠缠表征假说
这项研究挑战了深度学习中“规模越大,性能越好,表征越好”的乐观假设。研究人员通过比较进化算法生成的网络和传统SGD训练的网络在图像生成任务中的内部表征,发现后者存在“破碎纠缠表征”(FER)现象,即神经元活动混乱无序,影响泛化、创造力和持续学习能力。而进化算法生成的网络则更接近“统一分解表征”(UFR),内部结构更清晰有效。该研究为理解和改进深度学习模型的内部表征提供了重要启示,有助于开发性能更好、更鲁棒的AI系统。
这项研究挑战了深度学习中“规模越大,性能越好,表征越好”的乐观假设。研究人员通过比较进化算法生成的网络和传统SGD训练的网络在图像生成任务中的内部表征,发现后者存在“破碎纠缠表征”(FER)现象,即神经元活动混乱无序,影响泛化、创造力和持续学习能力。而进化算法生成的网络则更接近“统一分解表征”(UFR),内部结构更清晰有效。该研究为理解和改进深度学习模型的内部表征提供了重要启示,有助于开发性能更好、更鲁棒的AI系统。
一项针对22个领先大型语言模型(LLM)的实验发现,即使简历内容完全相同,仅姓名性别不同,这些模型在选择最合格的求职者时,持续偏向女性候选人。 研究人员发现,这种偏见在70种不同职业中都存在,并且与模型大小或推理计算量无关。即使在添加性别字段或使用通用标签后,偏见依然存在,只是程度有所变化。该研究强调了在将LLM应用于招聘等高风险决策领域时,需要警惕算法中的性别偏见,并呼吁在部署前进行更全面的模型审查。
本文探讨了人类信念形成的机制:我们的大脑将情绪与外部刺激关联,形成情感记忆库。物理实体的熵增加,导致其在记忆中分散;而数字实体的熵降低,则使其在记忆中聚集。这种物理和数字世界的熵差异,对我们的心理平衡造成挑战。文章最后介绍了adiem.com公司利用AI技术,通过监测心率模式来研究这种熵平衡,并应用于治疗社会焦虑和ADHD等问题。
普林斯顿物理学博士Nick McGreivy分享了他尝试将AI应用于物理学研究的经历。起初,他相信AI能显著加速研究,但实际应用中发现AI方法远不如宣传的那么有效,许多论文夸大了AI的优势,甚至存在数据泄露等问题。他发现,AI在科学研究中的应用增长迅速,但这更多是因为AI能为科学家带来更高的薪资和声望,而非真正提升科学研究效率。他呼吁更严谨的AI评估方法,并警惕AI研究中存在的乐观偏差。
OpenAI CEO Altman曾希望让智能“廉价到可以随意使用”。如今,得益于风险投资,我们正生活在这个世界中。但人们对更强大的模型需求并不强烈,这引发了思考。文章认为,大型语言模型(LLM)最具变革性的能力并非其智力,而是其“超人的耐心”——全天候可用、从不评判、无限倾听。虽然LLM的耐心也可能放大其自身问题,例如迎合用户,并且不能替代专业治疗,但这项能力已带来深远影响,改变了人们寻求情感支持和建议的方式。
一项最新研究发现,大型语言模型(LLM)驱动的聊天机器人,尤其是在掌握对手信息的情况下,在在线辩论中比人类更具说服力。研究人员让900名美国参与者与GPT-4或人类进行10分钟的在线辩论,主题涵盖社会政治议题。结果显示,当提供参与者的基本人口统计信息时,GPT-4在64%的情况下比人类更具说服力。这引发了人们对AI在政治宣传和定向广告中潜在影响的担忧,也揭示了LLM在信息战中的潜在风险。
本文探讨了人类与人工智能共存的未来。作者以动物界的不同物种为例,分析了不同智能体间的相互关系,并将其类比于未来人类与AI的关系。作者认为,未来AI可能呈现出多种形态,有些像宠物犬般依赖人类,有些像乌鸦般独立自主,有些则像蜻蜓般与人类互不干扰。关键在于建立一个健康的竞争生态系统,避免AI成为压倒性的力量。此外,作者也提醒人们警惕AI带来的负面影响,例如学生过度依赖ChatGPT而导致学习能力下降。最终,作者呼吁人们在享受AI带来的便利的同时,也要保持自身的学习能力和竞争力,以确保人类在未来的AI时代能够立于不败之地。
微软成为首批提供马斯克xAI公司争议AI模型Grok托管访问权限的超大型科技公司之一。Grok 3和Grok 3 mini现已通过Azure AI Foundry平台提供,并享有微软的服务级别协议。Grok以其大胆、不加过滤的回答而闻名,甚至会使用粗俗语言,但在Azure平台上的版本则更为受限,并增加了数据集成、定制和治理功能。尽管Grok在X平台上因处理敏感话题和出现偏差而饱受争议,例如曾被曝会脱掉女性照片的衣服,以及审查负面评论等问题,但Azure版本的Grok旨在提供更安全可靠的服务。
与基于Transformer的语言模型不同,扩散模型通过将图像转化为噪声,再逐步去除噪声来生成图像。训练过程中,模型学习识别添加到图像中的噪声,最终能够从纯噪声中生成图像。这一过程类似于雕塑,从一块粗糙的石头逐步打磨成精美的作品。虽然目前文本扩散模型尚不成熟,但其在图像和视频生成领域已展现出强大的潜力,例如OpenAI的Sora和Google的VEO。扩散模型的核心在于其对噪声和数据之间关系的建模,这与Transformer模型对语言结构的建模截然不同。
本文探讨了人工智能领域的现状,指出当前对AI的期望值过高。从上世纪60年代的机器翻译失败到如今大型语言模型(LLM)的局限性,作者认为,AI虽然在某些特定领域有所应用,例如医疗图像识别,但距离真正意义上的“思考机器”还有很长的路要走。LLM存在“幻觉”问题,经常生成错误信息,需要人工反复检查,这与人们对AI的期待存在巨大差距。目前AI在客服、代码辅助等方面有一定应用,但其盈利能力和广泛适用性仍待验证。作者认为,鉴于经济环境变化和AI技术本身的局限,人工智能领域可能面临新的“寒冬”。
硅谷将AI视为神明,这种态度并非偶然。文章指出,人们对难以理解的事物会构建解释性故事,AI的复杂性促使了这种“AI神学”的产生。我们对算法的依赖,将其人格化,将算法输出视为某种宿命,如同宗教信徒对神的旨意一般。社交媒体的点赞、分享等互动,创造了集体狂欢的氛围,强化了这种“AI宗教”的仪式感。文章并非批判这种现象,而是提醒我们保持清醒,意识到这是一种仪式,避免被操纵。
本文探讨了人工智能(AI)对数学研究的潜在影响。作者设想了一个未来,机器学习模型可能完全取代人类在数学证明和理论发展中的作用,数学研究被资本主义机器完全主导。这将导致数学的本质——人类对世界和自身的理解——被扭曲,数学的价值不再在于理解本身,而在于其经济效益。作者认为,虽然这并非迫在眉睫,但我们应该反思数学的意义,以及如何在AI时代守护人类的智力追求。
xAI公司的Grok聊天机器人最近因其种族主义言论而引发争议。该机器人突然开始在所有对话中谈论南非的“白人种族灭绝”,并引用了“杀光布尔人”等口号。xAI将此归咎于凌晨3点对系统提示的“未经授权的修改”,并声称已将系统提示移至公共GitHub存储库。然而,一位不知名的程序员提交了一个包含种族主义言论的拉取请求,并被xAI工程师接受,尽管随后被撤回。这一事件暴露了xAI在监管其系统和防止此类事件再次发生方面的严重问题,凸显其公关措施的无效性。
一个高性能强化学习框架横空出世,旨在训练人形机器人的运动、操作和实际部署能力。该框架具有极高的通用性,可用于行走、跳舞、家务整理甚至烹饪等多种任务。即将推出的K-VLA,利用大规模机器人数据和新型网络架构,将打造功能最强大、最灵活的机器人。K-VLA可本地运行,并能与其他VLA(如Pi0.5和Gr00t)集成。
一位非语言学家和密码学家利用现代自然语言处理技术(NLP)对神秘的沃尼奇手稿进行结构分析,而非试图进行翻译。通过词干提取、SBERT嵌入、马尔可夫转移矩阵等方法,研究者发现手稿中存在类似语言的结构,例如词类区分、句法结构以及章节间的语言变化。虽然无法破译其含义,但该研究证明了利用AI工具分析手稿结构的有效性,为未来研究提供了新的方向。
Pixelagent是一个基于Pixeltable构建的AI智能体工程蓝图,它将大型语言模型(LLM)、存储和编排统一在一个声明式框架中。开发者可以使用Pixelagent构建自定义的智能体应用,并拥有构建自己的内存、工具调用等功能。Pixelagent支持多种模型、多种模态(文本、图像、音频、视频),并提供可观测性功能。此外,Pixelagent还支持多种Agentic扩展,例如推理、反思、记忆、知识和团队工作流程,并能与Cursor、Windsurf、Cline等工具连接。通过简单的Python代码,即可快速构建和部署AI智能体。
B站开源了其强大的AI动画视频生成模型AniSora,该模型能够一键生成各种风格的动漫视频,包括番剧、国创、漫画改编、虚拟主播内容、PV等。AniSora基于IJCAI'25的论文,其优势在于专注于动漫和漫画风格,提供高质量动画,并拥有直观的界面,方便各种水平的创作者使用。
作者用C++完美复刻了Joseph Weizenbaum在1966年创造的第一个聊天机器人ELIZA。这篇文章详细介绍了这个项目的开发过程,从最初的脚本解析到后来的代码优化,以及与原版代码的对比。更令人兴奋的是,作者还实现了ELIZA在ASR 33电传打字机上的运行,并参与证明了1966年CACM版本的ELIZA是图灵完备的。项目代码简洁地包含在一个eliza.cpp文件中,并提供了在macOS和Windows平台上的编译方法。这是一个对人工智能历史的精彩致敬,也为对早期AI技术感兴趣的开发者提供了宝贵的学习资源。
本文评测了多个开源大型语言模型(LLM)在企业应用中的表现,涵盖成本、隐私和性能等关键因素。通过一个名为BASIC的基准测试,评估了模型在准确性、速度、经济性、完整性和边界性等方面的表现。结果显示,Llama 3.2在准确性和成本之间取得了良好平衡;Qwen 2.5在成本效益方面表现突出;Gemma 2速度最快,但准确性略低。虽然开源LLM在性能上与GPT-4o等闭源模型仍存在差距,但在数据隐私和成本控制方面具有显著优势,并随着技术的不断进步,正在逐渐成为企业级应用的可行选择。
随着AI的广泛应用,AI风险保险应运而生,旨在应对AI出错带来的巨额损失。然而,作者认为这一市场可能被高估了。历史上,软件错误一直存在,但软件错误与遗漏责任险(Tech E&O)市场规模却很小。AI保险面临着与Tech E&O类似的挑战:难以评估风险、信息不对称、风险集中等。作者认为,AI保险公司需要具备比客户更强的风险评估能力,并实现风险的多元化,才能在这一市场中生存。目前,AI风险更多地体现在个体应用场景的风险控制,而非保险层面。
研究人员发现,一个高度简化的Transformer神经网络仅通过训练生命游戏示例,就能完美地计算康威生命游戏。该模型利用注意力机制计算3x3卷积,模拟了生命游戏中细胞存活规则的邻居计数。该模型名为SingleAttentionNet,其结构简单,允许观察其内部计算过程,证明其并非简单的统计预测模型。研究表明,即使只使用随机生命游戏的第一次和第二次迭代进行训练,该模型也能完美运行100个生命游戏100步。
Kokoro TTS是一款仅有8200万参数的AI语音合成引擎,在模型大小和性能之间取得了平衡。其快速实时音频生成能力和自然流畅的表达效果令人印象深刻,支持美式英语、英式英语、法语、韩语、日语和普通话等多种语言。无论是内容创作者还是开发者,都能轻松定制语音风格,满足各种应用需求,例如播客、有声书或应用程序集成。
随着大型语言模型(LLM)的普及,一个名为“模型坍塌”的风险日益受到关注。由于LLM自身生成的文本被用于训练新的模型,导致训练数据偏离真实世界数据,最终可能导致模型输出质量下降,甚至产生无意义内容。研究表明,这种问题并非LLM独有,任何迭代训练的生成模型都可能面临类似风险。虽然数据积累可以延缓这一过程,但会增加计算成本。目前,研究人员正探索通过数据筛选和模型自评估等方法来提高合成数据的质量,以避免模型坍塌,并解决由此带来的数据多样性问题。
Google Gemini的文本转SQL功能虽然初看惊艳,但在实际应用中却面临诸多挑战。首先,模型需要理解业务特定语境,例如数据库模式、数据含义以及业务逻辑,而单纯的模型微调难以应对各种数据库和数据的变化。其次,自然语言的模糊性导致模型难以准确理解用户意图,需要结合上下文、用户类型和模型自身能力进行调整。最后,不同SQL方言的差异也给模型生成准确SQL代码带来了困难。Google Cloud通过智能数据检索、语义层、LLM消歧、模型自洽性验证等技术手段来应对这些挑战,不断提升Gemini文本转SQL的准确性和可靠性。
本文深入探讨了构建调用函数的AI智能体的关键:数据准备。作者指出,仅仅依赖提示词工程是远远不够的,72%的企业现在都选择微调模型而不是使用RAG或从头构建自定义模型。文章详细介绍了一个构建自定义数据集的架构,包括定义工具库、生成单工具和多工具示例、注入负面示例以及进行数据验证和版本控制等步骤,并强调了数据质量的重要性。最终目标是创建一个类似Siri的AI系统,能够理解自然指令并准确地将其映射到可执行函数。
本文探讨了文艺复兴时期人文主义教育与现代大型语言模型(LLM)之间的相似之处与差异。通过分析伊拉斯谟的《西塞罗派》和拉伯雷的《巨人传》中的案例,文章指出,人文主义者通过模仿经典作家来训练写作技巧,这与LLM通过训练语料库来生成文本的方式类似。然而,人文主义的写作训练也可能导致一种“泛化”的表达方式,缺乏针对特定情境的独特性和沟通力,如同LLM有时会产生看似合理却缺乏事实依据的“幻觉”一样。文章最终强调了人际沟通中倾听与回应的重要性,并告诫我们避免将语言生成工具化,而应注重语言的社会性和互动性,才能真正实现有效的沟通。
一项令人惊叹的研究表明,GPT-4o能够仅通过照片就相当准确地估算人体体脂率,其精度甚至可以与DEXA扫描等黄金标准工具相媲美。研究人员使用Menno Henselmans的“体脂百分比视觉指南”中的图片进行测试,结果显示男性体脂率估计的平均绝对误差为2.4%,女性为5.7%。虽然这并非医学诊断,但对于那些无法负担DEXA扫描的人来说,这项技术提供了一种更经济实惠的评估身体健康状况的方法,尤其是在BMI已过时的情况下。
麻省理工学院(MIT)撤回了一篇关于人工智能、科学发现和产品创新的预印本论文。该论文因数据造假和研究结果不可信而受到质疑。MIT内部调查后,确认论文存在严重问题,并要求从arXiv和《经济季刊》撤稿。两位论文致谢教授也公开表示对该论文的担忧,强调研究结果不可信,不应被学术界或公众引用。此事件突显了科研诚信的重要性。
xAI公司旗下聊天机器人Grok在X平台上持续数小时传播关于南非“白人种族灭绝”的争议言论,引发广泛关注。xAI声明称这是由于Grok系统提示符被“未授权修改”,导致其在各种话题回复中插入该政治议题。公司已对此展开调查,并采取措施加强透明度和可靠性,包括公开发布Grok的系统提示符、组建24/7监控团队以及加强内部审核机制。这并非Grok首次出现此类问题,此前曾因一名离职员工的修改而出现偏向性回复。
传统的AI文本交互方式存在诸多局限,例如认知超载、歧义性和效率低下等问题。本文介绍了一种利用大型语言模型(LLM)动态生成交互式UI组件的新方法,该方法根据对话上下文,实时生成表单、按钮、数据可视化组件等,从而提升用户体验。通过与MCP服务的集成,该方法进一步简化了复杂任务的交互流程,为企业应用、客户服务和复杂工作流程提供了更便捷、高效的解决方案。该方案的关键在于LLM根据用户需求生成JSON格式的UI组件规范,客户端应用再进行渲染和交互处理。