AI医疗的瓶颈:计算能力的极限
一位研究人员指出,当前用于癌症风险预测等临床工具的准确性很差。AI有潜力利用海量患者数据实现个性化医疗,更早地发现癌症,改进诊断和治疗方案。然而,医疗数据量巨大,传统计算机芯片难以处理,计算能力成为AI在医疗领域发挥最大潜力的瓶颈。虽然研究人员努力优化算法,但硅基芯片技术已接近性能极限,需要新的芯片技术才能实现AI的全部潜力。
一位研究人员指出,当前用于癌症风险预测等临床工具的准确性很差。AI有潜力利用海量患者数据实现个性化医疗,更早地发现癌症,改进诊断和治疗方案。然而,医疗数据量巨大,传统计算机芯片难以处理,计算能力成为AI在医疗领域发挥最大潜力的瓶颈。虽然研究人员努力优化算法,但硅基芯片技术已接近性能极限,需要新的芯片技术才能实现AI的全部潜力。
Meta首席AI科学家Yann LeCun预测,大型语言模型(LLM)将在五年内过时。他认为,当前的LLM缺乏对物理世界的理解,仅仅是在一个简单的离散空间(语言)中运行的专用工具。LeCun及其团队正在研究一种名为JEPA的替代方法,该方法旨在通过视觉输入创建物理世界的表示,从而实现真正的推理和规划能力,最终超越LLM。他认为,未来AI将通过增强人类智能而非取代人类来改变社会,并对AI构成生存风险的说法表示反对。
一款针对机器学习优化的OCR系统横空出世,它能从复杂的教育材料(如考试试卷)中提取结构化数据,支持多语言文本、数学公式、表格、图表等,非常适合创建高质量的AI训练数据集。该系统对提取的元素进行语义标注,并自动生成自然语言描述,例如为图表添加描述性文字。它支持日语、韩语和英语,并易于定制以支持更多语言。输出结果为JSON或Markdown格式,包含数学表达式的可读描述、表格摘要和图表标题,在真实学术数据集上准确率超过90-95%。
OpenAI最新模型o3在François Chollet设计的ARC-AGI测试中取得了87%的惊人成绩,首次达到人类水平,引发了关于AGI(通用人工智能)是否已实现的热议。然而,Chollet很快推出了更难的ARC-AGI-2测试,o3的得分大幅下降,再次挑战了业界对AGI的定义和衡量标准。这篇文章探讨了不同观点,以及AGI的定义与商业利益之间的复杂关系,引发了对通用人工智能本质的深刻思考。
研究人员发现,大型语言模型如Claude和GPT-4能够解码一种基于拜占庭音乐符号Unicode块的特殊密码。这种密码类似于凯撒密码,但偏移量为118784。模型能够在不进行链式思考的情况下,直接解码这种密码,其成功率甚至高于普通的凯撒密码。研究人员推测,这可能是由于特定Unicode范围内的加法运算与标记空间中的加法运算存在线性关系,使得模型能够学习到一种基于此关系的移位密码。这种现象的出现,暗示了大型语言模型内部可能存在着我们尚未完全理解的机制。
谷歌发布了实验性AI模型Sec-Gemini v1,旨在推动网络安全AI领域发展。该模型结合了Gemini的先进能力和近乎实时的网络安全知识与工具,在事件根本原因分析、威胁分析和漏洞影响理解等关键网络安全工作流程中表现出色。Sec-Gemini v1在关键网络安全基准测试中超越其他模型,例如在CTI-MCQ基准测试中至少提升11%,在CTI-Root Cause Mapping基准测试中至少提升10.5%。谷歌将向特定组织、机构、专业人士和非政府组织开放Sec-Gemini v1,以促进合作研究,共同推动网络安全AI发展。
作者表达了对某种科技的厌倦,这种科技无处不在,具有去人性化的倾向,其存在的合理性受到质疑。从垃圾输入到垃圾输出,没有人真正需要或想要它,但最好的头脑却致力于让人们使用它。股东、政策制定者都屈服于它的压力,运行它需要消耗巨大的能源和水资源。媒体上充斥着对其的赞扬和批判,人们喋喋不休地谈论它,分享他们如何使用它。作者隐晦地指出了这种科技,并表达了使用它后的负罪感。
随着人工智能的热潮席卷互联网,科技和商业领袖们已经开始展望下一步:人工通用智能(AGI)。DeepMind发布了一篇108页的技术论文,探讨如何安全地开发AGI,并指出AGI可能在2030年到来。论文识别了四类AGI风险:滥用、错位、错误和结构性风险,并提出了相应的缓解措施,例如严格的测试、健全的训练后安全协议以及潜在的“遗忘”机制,以应对AGI可能造成的严重危害。
瑞士科学家发现,倭黑猩猩能够组合简单的叫声,形成更复杂的语义结构,这意味着它们的沟通方式并非仅仅是单个叫声的简单叠加,而是具有非平凡的组合性——这曾经被认为是人类独有的能力。研究人员通过建立庞大的倭黑猩猩叫声数据库,并运用分布式语义学方法,成功破译了部分倭黑猩猩的叫声含义,为我们理解倭黑猩猩的野生沟通方式提供了宝贵的窗口。这项研究耗时费力,研究人员需要在清晨前往倭黑猩猩的巢穴,花费一整天的时间进行录音并记录大量上下文信息。
最近GPT图像生成的更新引发热议:它能将任何图片转化为吉卜力风格。这展现了AI强大的模仿能力,但也引发了版权争议。文章作者通过实验,发现GPT能轻松生成与知名IP角色高度相似的图像,即使不直接提及IP名称。这既令人惊叹,也让人担忧AI是否会助长知识产权盗窃。尽管法律允许模仿视觉风格,但如此精准的模仿已触及版权底线,引发了人们对AI发展与版权保护之间关系的思考。
这份报告预测,未来十年内超级人工智能的影响将超越工业革命。OpenAI 等机构模拟了两种未来:一种是缓慢发展,另一种是激烈的竞争。报告详细描述了 AI 系统的快速发展,从 2025 年初期的“笨拙代理”到 2027 年能够超越人类的编码能力和研究能力的超级智能。然而,这种快速发展也带来了巨大的风险,包括模型安全性和与中国之间的 AI 军备竞赛。报告强调了人工智能对就业市场和地缘政治的深远影响,并探讨了潜在的应对策略。
Onyx是一个开源的生成式AI平台,它连接你的公司文档、应用程序和人员。它从各种信息来源(Google Drive、Slack、GitHub、Confluence、Salesforce等)中提取和同步数据,为用户提供一个集中的地方来询问任何问题。想象一下,你最博学的同事们都被整合到一起,全天候可用!Onyx相信,未来五年内,每个现代团队都将采用知识增强的生成式AI,他们的目标是将这项技术带给全世界的团队。他们刚刚完成了由Khosla Ventures和First Round Capital领投的1000万美元种子轮融资,客户包括Netflix、Ramp、Applied Intuition等顶级团队,以及Roku、Zendesk、L3Harris等开源用户。
从苏联时期学习多门外语的经历,到如今成为MIT认知神经科学副教授,Evelina Fedorenko博士致力于研究大脑语言处理区域。她的研究利用fMRI技术精准定位大脑语言区域,并发现这些区域高度选择性地用于语言处理,与其他认知功能如音乐、代码解读等没有重叠。更进一步,她探究了不同脑区在语言处理中的时间窗口差异,以及大脑语言处理区域在儿童早期发育过程中的变化,并结合大型语言模型的研究,探索大脑语言能力的塑性及冗余性。
最新的AI图像和视频生成模型在创造逼真图像方面取得了显著进展,但它们在渲染镜子反射方面却存在一个持续的挑战。研究人员测试了多个模型,发现它们经常生成扭曲、不一致或完全错误的反射图像。例如,Gemini模型在渲染猫和椅子等物体反射时存在问题,Ideogram模型则在处理人物图像的反射时出现错误。这表明,虽然AI图像生成技术发展迅速,但在物理精度方面仍有很大的提升空间,准确模拟现实世界的物理现象,例如镜子反射,仍然是一个重要的挑战。
Anthropic公司发布了面向高等教育的Claude for Education,与OpenAI的ChatGPT Edu计划竞争。该服务为学生和教职员工提供Claude AI聊天机器人,并包含“学习模式”,帮助学生培养批判性思维能力,而非简单地获取答案。Claude for Education还提供企业级安全和隐私控制,并已与多所大学签订协议,包括东北大学和伦敦政治经济学院。Anthropic希望通过该服务增加收入,并让更多学生熟悉其工具。
Apple发布了用于室内三维物体检测的大规模数据集CA-1M和相应的Cubify Transformer (CuTR) 模型。CA-1M包含详尽标注的三维边界框和姿态信息,并提供两种CuTR模型:一种使用RGB-D图像,另一种仅使用RGB图像。该数据集支持使用NeRF Capture App进行实时检测,并提供详细的使用说明和代码示例。研究人员可以使用该数据集和模型进行室内三维物体检测的研究。
本文探讨了AI智能体的定义问题。作者认为,区分AI智能体和AI助手关键在于“身份”。真正的AI智能体能够以自身身份执行操作,并在审计日志中体现;而AI助手则以人类用户身份执行操作。这种身份认定标准,也隐含了自主性、能力和推理能力的要求。作者以法律中的代理人概念作类比,并以自身公司产品为例,阐述了这一定义的实际应用。
大型语言模型(LLM)面临着内省能力不足和认知短暂性两大限制。本文提出了一种新颖的实时内省压缩方法,通过训练一个轻量级的“副驾驶”模型来压缩Transformer内部状态,从而实现对模型内部状态的高效访问和重放。该方法将Transformer的内部状态压缩到低维潜在空间,类似于保存游戏进度,从而解决了保存全部状态的计算难题。这将使LLM能够进行推理回溯、基于思想轨迹的强化学习以及高效的检查点保存等,最终实现更强大的AI系统。
Ace是一款基于鼠标和键盘操作的电脑自动驾驶软件,在各种电脑任务测试中表现优异,速度甚至超越人类。它通过学习数百万个任务进行训练,能够快速执行点击和按键操作。虽然仍在学习阶段,偶尔会出错,但随着训练资源的增加,Ace的智能和能力将不断提升。目前已发布研究预览版,欢迎体验。
MathArena是一个评估大型语言模型(LLM)在最新数学竞赛和奥林匹克竞赛中表现的平台。它通过在模型发布后进行的竞赛中测试模型,避免了对可能泄露或预训练材料的追溯评估,确保评估的公平性和完整性。平台公布每个竞赛的排行榜,显示不同模型在各个问题上的得分,并提供一个主表,包含模型在所有竞赛中的表现。每个问题运行每个模型4次,计算平均得分和模型成本(美元)。其评估代码已开源:https://github.com/eth-sri/matharena。
1970年,阿根廷作家博尔赫斯与人工智能先驱西蒙在布宜诺斯艾利斯的一次会面,展现了人文与科技的奇妙碰撞。他们的对话围绕自由意志与预定论展开,探讨了人类行为是否如同计算机程序般运作。博尔赫斯以其特有的睿智和幽默,引导西蒙思考人类行为的确定性和个体性的统一性。这段对话不仅体现了跨学科思想交流的魅力,也为当今学术界面临的挑战提供了启示,呼吁人文与科技的融合,并引发了对利用AI模拟历史人物的可能性思考。
谷歌展示了其最新的Gemini Robotics模型,该模型赋能机器人完成复杂任务,例如在未经训练的情况下,首次尝试便能成功将篮球灌篮。这一突破基于Gemini 2.0,通过机器人特定数据微调,使其能够将文本、视频和音频等多模态输出转化为物理动作。该模型具有高度灵活性、交互性和通用性,无需额外训练即可应对新物体、环境和指令。谷歌的目标是打造具身AI,让机器人能够辅助人们完成日常任务,最终成为像手机和电脑一样便捷的AI交互界面。
Pulse公司致力于解决数据基础设施领域长期存在的挑战——大规模提取复杂文档中的准确、结构化信息。他们开发了一种突破性的文档理解方法,结合智能模式映射和微调的提取模型,解决了传统OCR和其它解析工具无法处理的问题。Pulse团队虽然规模较小,但发展迅速,服务于财富100强企业、YC创业公司等客户,并获得了顶级投资机构的支持。其技术优势在于多阶段架构,包括布局理解、低延迟OCR、高级阅读顺序算法、专有表格结构识别以及针对图表和表格的视觉语言模型。如果你对计算机视觉、NLP和数据基础设施的交叉领域充满热情,Pulse将是一个理想的选择。
AI监管组织AI Disclosures Project发布的一篇论文指控OpenAI在其GPT-4o模型的训练中使用了未经授权的付费书籍,这些书籍主要来自O'Reilly Media。该论文利用DE-COP方法检测到GPT-4o对O'Reilly付费书籍内容的识别能力远强于GPT-3.5 Turbo,暗示其训练数据中包含大量未授权内容。尽管OpenAI拥有部分数据许可协议,并提供内容移除机制,但此事件仍对其在版权方面的法律诉讼构成不利影响。论文作者承认其方法并非完美无缺,但结果引发了对OpenAI数据获取方法的担忧。
研究人员提出了一种新方法,利用跨层转码器(CLT)来解释深度学习模型的内部工作机制。CLT 将模型的激活分解成稀疏的、可解释的特征,并构建特征之间相互作用的因果图,从而揭示模型如何生成输出。该方法在解释模型对不同提示的反应(例如,编写首字母缩写词、事实回忆和简单的加法)方面取得了成功,并通过扰动实验进行了验证。尽管该方法存在一些局限性,例如无法解释注意力机制,但它为理解大型语言模型的内部运作提供了有价值的工具。
本文探讨了一个模拟市场经济的模型,该模型从个体行为出发,通过简单的买卖决策规则,模拟出复杂的市场动态。模型中,每个参与者根据自身对商品的估值和对市场价格的预期进行交易决策,并根据交易结果调整预期价格。模拟结果显示,该模型能够有效地使市场价格趋于个人估值的均值,并适应环境变化。这为在开放世界RPG游戏中构建动态经济系统提供了一种新思路,但仍需解决交易时序和商品稀缺性等问题。
当前AI模型的知识储备在预训练阶段就已固定,后续只能通过昂贵的微调进行有限更新,这导致AI对截止日期后的信息“一无所知”。本文探讨了AI领域的“上下文”概念:它包含用户输入、对话历史和外部信息源等,模型处理信息的长度受限于“上下文窗口”。为解决这一局限,建立一个通用的外部数据源标准,将使AI模型能够访问实时信息,从而实现更智能、更全面的功能。
DeepMind加强了其论文审查流程,引发内部员工不满。据报道,DeepMind阻止了一篇揭露ChatGPT漏洞的论文,此举被认为是出于商业利益考虑,而非学术客观性。一些员工认为,新的审查流程影响了他们的职业发展,甚至导致部分员工离职。与此同时,DeepMind越来越重视Gemini等AI产品的研发,优先分配资源。虽然Google的AI产品在市场上取得了成功,股价也上涨,但内部的紧张关系却在加剧,反映出学术研究与商业化之间的矛盾。
模拟人类大脑一直是科学界的圣杯,但其复杂性令人望而却步。科学家们将目光转向了拥有仅302个神经元的线虫C. elegans。历经25年,无数尝试失败后,借助最新的光片显微镜、超分辨率显微镜和机器学习技术,模拟线虫大脑终于成为可能。这些技术能够实时观察活体线虫大脑的神经活动,并利用机器学习推断神经元的生物物理参数。成功模拟线虫大脑不仅是科学上的巨大突破,更重要的是,它将为模拟更复杂的大脑,最终包括人类大脑,提供宝贵的经验和方法,为未来人工智能和脑科学研究奠定坚实基础。
本文探讨了AI生成艺术对艺术意义的冲击,以超现实主义的蓝色颜料“群青”为例,讲述了从手工制作到AI生成的艺术品,其稀缺性与珍贵感逐渐消失,导致人们审美疲劳的现象。作者认为,这并非AI独有的问题,而是技术进步的必然结果。文中还探讨了如何应对这种“语义末日”,即通过提升自身感知能力,重拾对事物的感知和欣赏能力,从而避免对艺术和生活的麻木。