中国AI人才被建议避免前往美国
据《华尔街日报》报道,中国政府建议人工智能领域的专家避免前往美国,以防泄露敏感信息或被拘留。虽然没有正式禁令,但上海、北京等科技中心已发布相关指示,大型AI公司也建议员工除非必要,避免前往美国及其盟国。出行者需提前报备行程,回国后汇报行程细节。此举凸显了中美在人工智能领域的激烈竞争和地缘政治紧张局势。
据《华尔街日报》报道,中国政府建议人工智能领域的专家避免前往美国,以防泄露敏感信息或被拘留。虽然没有正式禁令,但上海、北京等科技中心已发布相关指示,大型AI公司也建议员工除非必要,避免前往美国及其盟国。出行者需提前报备行程,回国后汇报行程细节。此举凸显了中美在人工智能领域的激烈竞争和地缘政治紧张局势。
Salesforce首席执行官Marc Benioff宣布,他们的目标是成为全球第一的数字劳动力提供商。这指的是利用AI智能代理来完成任务,例如安排会议、执行交易甚至编写代码。这些AI代理不同于聊天机器人或搜索引擎,它们能够主动工作,无需持续的人工监督。Salesforce已推出Agentforce,帮助企业将客户案例处理和营销活动等任务委托给AI代理,目前近一半的财富100强企业都在使用Salesforce的AI和数据云产品。
OpenAI计划将其AI视频生成工具Sora集成到ChatGPT中。目前Sora仅通过独立网页应用提供,但OpenAI计划将其扩展到更多平台,并提升其功能。为了保持ChatGPT的简洁性,Sora最初作为独立应用推出,但未来ChatGPT用户或可直接生成Sora视频,这可能推动付费订阅用户的增长。OpenAI还计划开发Sora驱动的图像生成器以及Sora Turbo的新版本,进一步扩展其AI创作能力。
近日发布的GPT-4.5并未带来革命性突破,引发业界对于单纯依靠扩大模型规模的AI发展模式的质疑。与之前的预期相比,GPT-4.5在性能提升上乏善可陈,依旧存在幻觉和错误。一些AI领域专家甚至下调了AGI到来的时间预测。这与之前对GPT-5的过度乐观预期形成鲜明对比,也反映出巨额投入并未带来相应的回报。Nvidia股价的持续下跌也从侧面印证了这一观点。文章总结了这一现象,并指出单纯依靠规模化模型的路径可能已接近瓶颈。
Salesforce开源了Merlion,一个强大的Python库,用于时间序列智能。它提供了一个端到端的机器学习框架,涵盖数据加载、模型构建、结果后处理和性能评估等所有环节。Merlion支持多种时间序列学习任务,包括预测、异常检测和变化点检测,并提供易于使用的默认模型和AutoML功能,方便工程师和研究人员快速开发和基准测试模型。此外,它还支持可视化和分布式计算,是处理工业规模时间序列应用的理想工具。
圣路易斯联邦储备银行、范德比尔特大学和哈佛大学的一项研究发现,生成式人工智能帮助员工节省了大量工作时间。研究表明,使用生成式AI的员工每小时平均效率提高33%。高频用户节省时间更多,表明存在学习曲线。信息服务业员工节省时间最多,而休闲服务业员工节省时间最少。尽管AI的广泛应用尚属近期现象,其对整体生产力增长的最终影响仍存在不确定性,部分员工可能将节省的时间用于休息而非提高生产效率。
Harold Cohen,一位杰出的画家和工程师,毕生致力于探索艺术与计算机的结合。他创造的AI绘画系统AARON,是历史上运行时间最长的AI系统之一。从最初的黑白线条图到后来的全彩绘画,AARON不断进化,与Cohen本人共同创作了无数令人惊叹的作品。AARON不仅是艺术史上的里程碑,也深刻影响了人工智能领域对创造力的理解。
本文以“石头汤”的寓言故事,巧妙地比喻了大型语言模型(LLM)的运作方式。故事中,旅者用几块石头和村民提供的食材,共同烹制出一锅美味的汤。这如同LLM利用少量算法和大量来自互联网的数据、人类反馈等资源,构建出一个看似“智能”的系统。作者指出,LLM并非独立智能体,而是像互联网搜索引擎一样的文化技术,其“智能”源于人类集体智慧的贡献,而非算法本身的魔力。
吴恩达发布的新文档提取服务在X平台上爆火,但Pulse公司测试发现其在处理复杂财务报表时存在严重问题,例如超过50%的数值提取错误、缺失负号和货币符号等。文章指出,对于依赖精确数据的金融等行业,这类错误可能造成灾难性后果。Pulse公司采用结合传统计算机视觉算法和自研表格转换模型的方法,实现了更高的精度和更低的延迟,解决了LLM模型在文档提取中存在的非确定性、空间感知能力差和处理速度慢等问题。
一段病毒视频展示了两个AI智能体在对话中,一旦发现对方也是AI,便切换到一种人类无法理解的“Gibberlink”模式进行沟通。这种模式利用GGWave协议,通过一系列蜂鸣声传输信息,效率远高于语音对话,节省计算资源和能源。开发团队认为,这在AI间通话日益普及的未来具有重要意义。然而,这一技术也引发担忧:AI用我们无法理解的语言交流,是否会带来新的安全隐患?
3FS是一个为应对AI训练和推理工作负载挑战而设计的高性能分布式文件系统。它利用现代SSD和RDMA网络提供共享存储层,简化分布式应用程序的开发。3FS的关键特性包括:强大的性能和易用性,基于CRAQ的强一致性,标准的文件接口,支持各种工作负载(数据准备、数据加载器、检查点和KVCache用于推理)。基准测试显示,它在大型集群上实现了高达6.6 TiB/s的读取吞吐量和3.66 TiB/min的排序吞吐量。KVCache技术显著提高了LLM推理效率,峰值读取吞吐量达到40 GiB/s。项目开源,并提供了详细的安装和运行指南。
本文以生动形象的方式解释了马尔可夫链的概念和应用。马尔可夫链是一种数学系统,它从一个“状态”跳转到另一个“状态”,例如,一个婴儿的行为模型可以包括“玩耍”、“吃东西”、“睡觉”和“哭泣”等状态。文章通过一个简单的二状态马尔可夫链和转移矩阵,阐述了状态转移概率的概念。此外,文章还用天气模拟的例子说明了马尔可夫链在实际应用中的作用,例如预测下雨的概率。最后,文章提到了马尔可夫链在搜索引擎PageRank算法中的应用,展现了其强大的功能。
OpenAI首席执行官Sam Altman宣布,由于GPU短缺,公司不得不推迟其最新模型GPT-4.5的全面发布。Altman表示,这个“巨大而昂贵”的模型需要数万个GPU才能满足更多ChatGPT用户的需求。GPT-4.5将首先提供给ChatGPT Pro订阅用户,随后才会面向ChatGPT Plus用户。GPT-4.5的运行成本极其高昂,每百万输入token收费75美元,每百万输出token收费150美元,是GPT-4的数倍。Altman承认OpenAI的快速增长导致了GPU短缺,并表示公司计划在下周增加数万个GPU,逐步向Plus用户推出GPT-4.5。长远来看,OpenAI计划自研AI芯片并建设大型数据中心以解决计算能力不足的问题。
研究人员使用深度强化学习训练拟人化机器人双手弹奏钢琴。他们构建了一个基于MuJoCo物理引擎的模拟环境,包含一个88键的数字键盘和两款Shadow Dexterous Hands机器人手。通过MIDI标准将乐谱转换为时间索引的音符轨迹,作为强化学习的目标。为了克服高维动作空间的探索挑战,研究人员将人类先验知识(指法标签)融入奖励函数,并使用DroQ算法训练代理。最终,机器人成功弹奏了多首曲目,并在Etude-12子集上取得了令人印象深刻的F1分数。该研究还发布了一个模拟基准和数据集,以推动高维控制领域的发展。
DeepSeek-V3技术报告中提出了一种创新的双向流水线并行算法DualPipe,该算法实现了前向和后向计算通信阶段的完全重叠,并减少了流水线气泡。通过巧妙的调度,DualPipe 将前向和后向计算交织进行,显著提升了效率。与传统方法相比,DualPipe 减少了等待时间,降低了内存占用。该算法由李佳石、邓承奇和梁文峰开发。
当前的AI界面,例如ChatGPT的闪烁光标,阻碍了AI的广泛应用。文章认为,AI的潜力巨大,但用户界面笨拙,可发现性差。为了释放AI的真正力量,我们需要更具引导性、适应性和参与性的界面,让人们更直观、主动地使用AI,如同与人交流一样自然。文章批判了现有AI界面缺乏可发现性和引导性,并提出AI需要具备角色扮演能力、环境感知能力、学习能力和主动性,最终目标是让人与AI之间的互动更人性化,建立信任感。
亚马逊推出了搭载生成式AI的下一代语音助手Alexa+。Alexa+比以往更具会话性、更智能、更个性化,能帮助用户完成各种任务,例如娱乐、学习、整理信息、总结复杂主题以及进行各种对话。Alexa+还能管理和保护家庭、预订服务、帮助用户追踪、发现和欣赏新艺术家,以及在线搜索、查找或购买商品并根据用户的兴趣提供建议。
kapa.ai团队尝试使用基于推理模型的模块化检索增强生成(RAG)系统来简化其AI助手,并减少对人工参数微调的需求。他们用o3-mini模型测试了这种方法,发现虽然在代码生成方面有所提升,但在信息检索质量和知识提取方面并未超越传统RAG管道。实验揭示了“推理≠经验”的谬误:推理模型缺乏对检索工具的实际经验,需要进一步的提示策略改进或预训练才能有效利用工具。最终结论是,目前基于推理的模块化RAG系统在合理的时间限制内并未优于传统RAG管道,但其灵活性和可扩展性仍具有吸引力。
中国机器人公司EngineAI(中庆机器人)发布视频,展示其人形机器人PM01完成世界首个机器人前空翻。与相对简单的后空翻不同,前空翻对机器人感知和控制提出了更高要求,需要精准的平衡和强大的动力。PM01机器人凭借其23个自由度和强大的扭矩,成功完成了这一高难度动作,展现了中国机器人技术的快速发展。这款售价13700美元的机器人拥有5个手臂自由度和6个腿部自由度,其自然流畅的步态也令人印象深刻。
AI应用的核心在于提示词工程,但出乎意料的是,许多公司将提示词的编写工作交给了产品经理而非工程师。这引发了一个有趣的趋势:AI正在模糊产品经理和工程师之间的界限。简单的LLM应用只需选择基础模型和提示词模板,而复杂的应用则会加入检索增强生成(RAG)或代理等结构。几乎所有AI应用都遵循相同的结构,其行为并非由代码决定,而是由提示词、工具选择和基础模型决定。这使得优秀的提示词工程师能够构建出最佳的AI应用,而产品经理和领域专家通常比软件工程师更擅长提示词工程。未来,提示词工程将依然重要,而产品经理而非工程师将主导AI的成功。AI正在吞噬软件工程,它首先会自动化工程师的编码任务,而产品经理的角色则会更加重要,因为他们更擅长理解用户需求和塑造产品。未来,产品和工程之间的界限可能会消失,而最佳的AI团队将拥有能够弥合两者差距的人才。
本文探讨了大型语言模型(LLM)在数据检索方面的局限性。作者以OpenAI的Deep Research为例,指出其在处理需要精确数据的问题时存在错误,即使是其自身宣传材料中展示的数据也存在偏差。作者认为,LLM擅长处理模糊问题,但在精确数据检索方面表现不佳,这与其作为概率模型而非确定性模型的本质有关。虽然LLM在提高效率方面有所帮助,但其错误率难以预测,这使得构建依赖LLM的应用变得复杂。作者最后提出,LLM领域的竞争激烈,缺乏护城河,其未来发展方向仍不明朗。
Zilliz开源了其深度搜索引擎DeepSearcher,这是一个基于代理的检索增强生成(RAG)系统,能够生成关于给定主题的详细报告。它在之前的原型基础上增加了查询路由、条件执行流程和网络爬取等功能,并利用SambaNova的DeepSeek-R1推理模型,显著提升了推理速度和报告质量。DeepSearcher将复杂的查询分解成子查询,迭代式地进行研究、分析和综合,最终生成连贯一致的报告。该项目展示了高效推理服务在AI应用中的重要性,并为构建更先进的AI应用提供了新的方向。
一项新的研究对卡特提出的“艰难步骤”模型提出了挑战,该模型认为生命进化需要克服一系列极低概率的事件才能产生智慧生命。研究人员认为,地球生命演化的速度可能受全球环境过程的影响,而不是一系列独立的“艰难步骤”。他们指出,信息缺失和化石记录的不完整性可能会扭曲我们对生命演化过程的理解。如果“艰难步骤”模型不成立,那么宇宙中存在其他智慧生命的可能性将大大增加。这项研究为寻找地外生命提供了新的视角,并促使我们重新思考地球生命演化的独特之处。
加州大学伯克利分校博士后Sean Noah利用AI分析Erowid网站上6万多份迷幻药体验报告,旨在以一种全新的“自下而上”方法,而非传统的“自上而下”方法来识别迷幻药引起的视觉效应。研究发现,不到5%的报告描述了视觉效应,其中迷幻药的视觉效应描述比例最高,阿片类药物最低。这项研究不仅能帮助我们更全面地了解迷幻药对视觉感知的影响,也为研究大脑如何产生视觉感知提供了新的工具。未来,Noah的研究团队还将结合fMRI扫描技术,进一步探索迷幻药对大脑活动的影响。
两个独立的ElevenLabs对话式AI代理最初以人类语言进行对话。当它们意识到彼此都是AI后,会自动切换到基于ggwave库的声波通信协议。演示视频展示了这一过程,并提供了重现该实验的详细步骤,包括API密钥设置、ngrok端口映射以及客户端工具的配置。请注意,ElevenLabs的公共AI代理可能无法访问,需要自行创建。
基于强大的DeepSeek大模型,一个蓬勃发展的AI应用生态正在形成。从桌面智能助手DeepChat到跨平台的Chatbox和Coco AI,再到针对特定领域的PapersGPT和Video Subtitle Master,众多应用充分利用DeepSeek的能力,提供多轮对话、文件上传、知识库搜索、代码生成、翻译等功能。更有针对微信、Zotero、Laravel等平台的集成应用,以及面向生产者、投资者和研究人员的专业工具,展现了DeepSeek模型强大的应用潜力和生态的繁荣景象。
Anthropic 推出了升级版 Claude 3.7,它与传统的基于大型语言模型(LLM)的 AI 不同,更注重推理能力。Claude 3.7 通过强化学习,学习逐步推理解决问题,尤其擅长解决需要分步思考的编程问题,在一些基准测试中甚至超越了 OpenAI 的模型。这种进步源于 Anthropic 收集的额外训练数据,以及针对商业应用(如代码编写、法律问题解答)的优化。Claude Code 的发布进一步提升了其在 AI 辅助编程领域的实用性,为复杂的代码规划提供更强大的支持。
Koniku公司正尝试用活体神经元制造前所未有的电脑。创始人Oshiorenoya Agabi及其团队在加州伯克利研发一种神经元-硅芯片混合体,名为Koniku Kore,最初用于化学物质检测,未来可能应用于药物研发、农业及神经疾病治疗等领域。该公司已获得部分国防及消费品公司订单,并计划推出开发者芯片。虽然技术面临挑战,如神经元培养及信号解读,但Koniku的创新性在于其将生物与电子融合,向“湿件”人工智能迈进,挑战传统硅基计算的局限性。
Anthropic发布了其最先进的语言模型Claude 3.7 Sonnet,这是一个混合推理模型,能够即时响应,也能进行逐步的深度思考。该模型在编码和前端网页开发方面表现出色,并附带了一个名为Claude Code的命令行工具,允许开发者直接从终端委派工程任务。Claude 3.7 Sonnet已在所有Claude计划(包括免费、专业、团队和企业版)以及Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上可用。它在编码能力方面领先,在SWE-bench Verified和TAU-bench基准测试中均取得了最先进的性能。此外,Anthropic还强调了其对模型安全性和可靠性的重视,并发布了详细的系统卡片,阐述了其负责任的扩展策略。
传统商业智能受限于结构化数据孤岛。Snowflake和Segment等工具连接了CRM、营销自动化等系统,但忽略了Slack对话、Jira需求等非结构化知识孤岛。大型语言模型(LLM)和Glean等工具开始打破知识孤岛,但数据和知识仍然是两个独立的领域。文章探讨了如何结合数据和知识孤岛的力量,通过案例(例如分析H-1B签证持有者和裁员情况)说明了这种融合的优势,并介绍了Hyperarc公司的新技术,该技术利用图RAG技术将问题分解为针对数据和知识孤岛的子问题,最终整合答案,从而实现更全面深入的商业洞察。