分类: AI

EM-LLM:赋予大型语言模型无限上下文能力的类人记忆机制

2025-05-14
EM-LLM:赋予大型语言模型无限上下文能力的类人记忆机制

EM-LLM 是一种新型架构,它通过模仿人类情景记忆和事件认知,显著提升了大型语言模型处理超长文本的能力。该模型无需微调,就能将输入文本序列组织成连贯的情景事件,并通过高效的两阶段记忆检索机制访问相关信息。在 LongBench 和 ∞-Bench 基准测试中,EM-LLM 的性能超越了现有最先进的检索模型 InfLLM 和 RAG,甚至在大多数任务中优于全上下文模型,成功处理了 1000 万个 token 的检索任务,这对于全上下文模型来说是计算上不可行的。EM-LLM 的事件分割与人类感知事件高度相关,为探索人类记忆机制提供了新的计算框架。

DeepSeek创始人梁文锋:低调的AI天才

2025-05-14
DeepSeek创始人梁文锋:低调的AI天才

DeepSeek创始人梁文锋外表谦逊内敛,但在人工智能领域却展现出过人的天赋。他看似害羞,实则心思缜密,善于提出尖锐的技术问题。他鼓励年轻的研究人员大胆尝试,甚至亲自参与项目更新,分享技术突破。这种独特的工作方式,使得DeepSeek在AI领域取得了令人瞩目的成就。

AI

AI能否击破阴谋论?一项研究表明,AI或可有效改变人们对阴谋论的看法

2025-05-13
AI能否击破阴谋论?一项研究表明,AI或可有效改变人们对阴谋论的看法

一项由MIT和康奈尔大学心理学家进行的研究表明,人工智能,特别是大型语言模型,如ChatGPT4-Turbo,可以通过提供反事实证据和苏格拉底式提问,有效地降低人们对阴谋论的相信程度。研究发现,与AI对话后,参与者对所选阴谋论的相信程度平均下降了20%。即使AI被设定为与参与者进行对抗性辩论,结果也没有显著变化,这表明人们改变想法是基于信息本身,而非对AI的信任。然而,研究也指出,深层次的信念与个人身份认同紧密相连,单纯的信息干预可能不足以完全消除阴谋论。

杏仁核与精神疾病治疗:从神经影像到经颅聚焦超声

2025-05-13
杏仁核与精神疾病治疗:从神经影像到经颅聚焦超声

这篇综述性文章探讨了杏仁核在情绪处理中的关键作用及其与各种精神疾病(如焦虑症、抑郁症和创伤后应激障碍)的关系。文章回顾了大量神经影像学研究,揭示了杏仁核在不同精神疾病中的异常激活模式。此外,文章还介绍了经颅磁刺激和经颅聚焦超声等新型神经调控技术在治疗精神疾病中的应用,并讨论了这些技术对杏仁核活动及相关脑网络连接的影响。这些研究为理解精神疾病的神经机制和开发更有效的治疗方法提供了重要线索。

机器人学会了“盲摸”识别物体属性

2025-05-13
机器人学会了“盲摸”识别物体属性

麻省理工学院、亚马逊机器人和不列颠哥伦比亚大学的研究人员开发了一种新技术,使机器人能够仅通过内部传感器(无需摄像头或外部工具),通过拿起并轻轻摇晃物体来学习物体的重量、柔软度或内容物。该技术利用机器人和物体的模型进行模拟,通过分析机器人关节编码器的数据来反向推断物体的属性,例如质量和柔软度。这项低成本技术在摄像头效果不佳的环境中(例如黑暗的地下室或地震后的废墟中)尤其有用,并且在处理各种未见场景方面具有很强的鲁棒性。这项研究发表在国际机器人与自动化会议上,未来有望应用于改进机器人学习,使机器人能够快速发展新的操作技能并适应环境变化。

FastVLM: 高效视觉编码,赋能视觉语言模型

2025-05-13
FastVLM: 高效视觉编码,赋能视觉语言模型

FastVLM是一种高效的视觉编码器,它能够显著减少高分辨率图像的编码时间和生成的token数量。即使是最小的FastVLM变体,其速度也比LLaVA-OneVision-0.5B快85倍,视觉编码器体积也小3.4倍。更大的FastVLM变体结合Qwen2-7B LLM,其性能优于Cambrian-1-8B等最新模型,并且TTFT快7.9倍。该项目还提供了一个iOS演示应用和详细的推理指南,方便开发者在移动设备和苹果设备上运行。

要求简洁反而让AI更易产生幻觉?

2025-05-13
要求简洁反而让AI更易产生幻觉?

一项来自Giskard的研究表明,要求AI简洁作答,尤其是在模糊话题上,反而会增加其产生幻觉的可能性。研究人员发现,简洁的指令会限制模型识别并纠正错误的能力,导致其优先选择简洁性而非准确性,即使是像GPT-4这样的先进模型也受到影响。这揭示了在追求用户体验与确保AI准确性之间的矛盾,提示开发者在系统指令设计上需谨慎。

AI

教宗谈AI:历史重演,技术伦理再临

2025-05-12
教宗谈AI:历史重演,技术伦理再临

教宗方济各呼吁在人工智能时代尊重人类尊严,这让人联想起1891年教宗良十三世在《 rerum novarum 》中应对工业革命带来的社会问题。当时,恶劣的工厂条件导致工人遭受极度贫困和剥削。良十三世谴责了资本主义和社会主义的极端,提出天主教社会学说,主张维护工人的权利。如今,人工智能也可能威胁就业和人类尊严,教宗方济各认为教会需要再次发挥道德领导作用,应对AI带来的新挑战,维护人类尊严、正义和劳动权益。

AI

Airweave:让你的AI代理轻松访问任何应用数据的工具

2025-05-12
Airweave:让你的AI代理轻松访问任何应用数据的工具

Airweave 是一款能让你的AI代理进行语义搜索任何应用程序的工具。它兼容MCP,并能无缝连接任何应用程序、数据库或API,将它们的内容转换为代理可用的知识。无论你的数据是结构化还是非结构化,Airweave都能帮你将其分解成可处理的实体,存储数据并通过REST和MCP端点进行检索。它支持多种数据源,并具有实体提取、转换管道、多租户架构、增量更新、语义搜索等功能。后端使用FastAPI (Python),数据库使用PostgreSQL和Qdrant,并支持Docker Compose和Kubernetes部署。

AI

外星语言:比我们想象的更奇特

2025-05-12
外星语言:比我们想象的更奇特

科幻作品中的外星语言,例如《降临》中的七肢体外星人的语言,虽然奇特,但其基本结构与人类语言惊人地相似。这引发了哲学家对“可能语言空间”的思考:真正的外星语言可能远超我们的想象,其构建方式可能与人类语言大相径庭。文章探讨了语言的四个层面:符号、结构、语义和语用学,并分析了外星语言可能在这些层面上的差异,例如采用非人类的感知方式(气味、电脉冲),拥有不同于人类的语法结构,甚至缺乏我们理解的“意义”概念。文章认为,准备好迎接真正不同于人类语言的外星语言,需要我们打破人类中心主义的视角,积极探索语言的可能性,这不仅关乎未来可能的外星接触,也关乎我们对自身语言和认知能力的更深理解。

连续思维机器:赋予AI时间维度

2025-05-12
连续思维机器:赋予AI时间维度

现代AI系统为了效率牺牲了生物大脑中神经元同步计算的关键特性。研究人员提出了一种名为“连续思维机器”(CTM)的新型神经网络架构,它将神经元时间编码作为基础元素,通过解耦的内部维度模拟神经活动的时序演化。CTM使用神经同步作为潜在表示,在图像分类、迷宫求解和奇偶校验等任务中展现出令人印象深刻的能力,甚至能构建内部世界模型进行推理。其适应性计算和可解释性也为AI研究开辟了新的方向。

AI 掌控下的自由:我们是否有权拒绝人工智能?

2025-05-12
AI 掌控下的自由:我们是否有权拒绝人工智能?

人工智能正悄无声息地改变着我们的生活,从新闻推荐到交通管理,它无处不在。但随之而来的是一个紧迫的问题:我们是否有权不受AI影响地生活?文章指出,AI已渗透到医疗、交通、金融等关键领域,拒绝AI意味着与现代生活脱节。AI系统中的偏见导致不公平的结果,进一步加剧了数字鸿沟。作者以歌德的《魔法师的学徒》为例,警示了我们对无法控制的力量的依赖。文章呼吁政府、企业和社会共同努力,建立尊重个人自由的AI治理框架,提升数字素养,确保每个人都有权选择是否使用AI,避免AI成为控制个人命运的工具。

AI

从零开始构建大型语言模型:注意力机制的奥秘

2025-05-11
从零开始构建大型语言模型:注意力机制的奥秘

本文深入探讨了大型语言模型中自注意力机制的工作原理。作者通过分析多头注意力和层叠机制,解释了为什么看似简单的矩阵乘法能够实现复杂的功能。核心观点是:单个注意力头功能简单,但通过多头注意力和层叠,可以构建出复杂、丰富的表示。这类似于卷积神经网络中逐层提取特征的过程,最终实现对输入序列的深刻理解。此外,文章还阐述了注意力机制如何解决RNN模型中固有的固定长度瓶颈问题,并通过例子解释了注意力机制中查询、键和值空间的作用。

AI

哲学家挑战意识的本质:恒温器也能有意识?

2025-05-11
哲学家挑战意识的本质:恒温器也能有意识?

哲学家大卫·查默斯提出,简单的恒温器可能拥有意识。他将连接主义网络与恒温器进行比较,发现两者在信息处理方式上惊人的相似之处,这暗示着如果我们接受某些标准,恒温器可以模拟基本的意识体验。查默斯认为,仅仅复杂性无法解释意识,虽然先进的人工网络模拟了意识,但某种本质仍然难以捉摸。他得出结论:我们必须超越连接主义模型,寻找尚未构想的更深层次的规律,继续探索意识的本质。

AI

Gemini 2.5更新意外屏蔽敏感内容,影响心理健康应用

2025-05-10
Gemini 2.5更新意外屏蔽敏感内容,影响心理健康应用

谷歌Gemini 2.5更新后,其安全设置控制出现故障,意外屏蔽了此前允许的敏感内容,例如性侵受害者倾诉内容。这导致依赖Gemini API的多个应用,包括帮助性侵受害者生成报告的VOXHELIX和帮助PTSD患者记录情绪的InnerPiece,出现功能中断。开发者们指责谷歌未经通知更改模型,导致应用无法正常运行,严重影响用户体验和心理健康支持。谷歌已回应此事,但尚未给出明确解释。

AI

你的DNA信息量究竟有多大?一个关于信息论和分子生物学的烧脑问题

2025-05-10
你的DNA信息量究竟有多大?一个关于信息论和分子生物学的烧脑问题

本文探讨了人类DNA的信息含量。简单的计算表明,人类DNA包含约1.5GB的信息,但这忽略了DNA的冗余性和压缩性。文章深入探讨了信息论中的两种信息定义:存储空间定义和Kolmogorov复杂度定义,并比较了这两种定义在DNA信息量计算中的差异。最终,作者提出了一个新的定义——表型Kolmogorov复杂度,认为这更能反映DNA的真实信息量,但目前还无法准确计算。

AI

AI工具的双刃剑:提升效率的同时损害声誉?

2025-05-10
AI工具的双刃剑:提升效率的同时损害声誉?

杜克大学的一项新研究表明,使用AI工具可能是一把双刃剑。虽然生成式AI可以提高生产力,但它也可能秘密地损害你的专业声誉。研究发现,使用ChatGPT等AI工具的员工,更容易被同事和经理认为能力不足、缺乏动力。这种负面评价不受年龄、性别或职业的影响,是一种普遍现象。研究人员通过四个实验,证实了人们对AI使用者存在偏见,即使AI能提高效率,使用它仍然会付出社会代价。

AI

大型语言模型处理表格数据的瓶颈与突破

2025-05-09
大型语言模型处理表格数据的瓶颈与突破

大型语言模型(LLM)擅长处理文本和图像信息,但在处理表格数据方面却存在不足。目前,LLM主要依赖于已发布的统计摘要,而无法充分利用表格数据(如调查数据)中的知识。文章提出了一种新的方法,通过机械蒸馏技术,创建单变量、双变量和多变量摘要,并结合LLM提出问题和学习,从而更好地理解和利用表格数据。该方法包含三个步骤:理解数据结构、确定可提出的问题类型以及创建机械摘要和可视化结果。作者认为,这种方法可以用于增强检索式问答系统(RAG)和补充可能存在偏差的“世界数据”,并建议从科学论文数据存储库(如哈佛数据仓)和管理数据入手进行验证。

硅基神经元:将生物神经元与硅芯片融合的革命性技术

2025-05-09
硅基神经元:将生物神经元与硅芯片融合的革命性技术

一家公司研发出一种将真实神经元培养在富含营养的硅芯片上的技术。这些神经元在一个名为biOS的模拟世界中生存,并直接接收和发送环境信息。神经元的反应会影响模拟世界,而程序员可以直接向这些神经元部署代码。这项技术利用了经过40亿年进化的生物神经网络的强大能力,为解决当今最棘手的挑战提供了新的途径,标志着合成生物学和人工智能领域的突破。

LegoGPT:用AI搭建稳定的乐高模型

2025-05-09

研究人员开发了LegoGPT,这是一个能够根据文本提示生成物理上稳定的乐高积木模型的AI模型。它基于一个包含超过47,000个乐高结构的大规模数据集训练而成,该数据集包含28,000多个独特的3D对象及其详细的描述。LegoGPT通过预测下一个要添加的积木来生成模型,并使用有效的有效性检查和物理感知回滚来确保生成的模型稳定性。实验表明,LegoGPT生成的乐高模型稳定、多样且美观,并且与文本提示高度一致。此外,它还支持基于文本的乐高纹理生成,生成的模型既可以人工组装,也可以由机械臂自动组装。该研究还公开了数据集和代码。

AI

阿里巴巴ZeroSearch:无需搜索引擎即可训练AI搜索

2025-05-09
阿里巴巴ZeroSearch:无需搜索引擎即可训练AI搜索

阿里巴巴研究人员开发了一种名为ZeroSearch的新技术,彻底改变了AI搜索能力的训练方式。该技术通过模拟搜索结果,无需依赖昂贵的商业搜索引擎API,即可训练大型语言模型(LLM)具备强大的搜索功能。这不仅大幅降低了训练成本(高达88%),还提升了对训练数据的控制力,让小型AI公司也能参与先进AI搜索技术的开发。ZeroSearch在七个问答数据集上的表现优异,甚至超越了使用真实搜索引擎训练的模型。这项突破预示着AI未来可能更多地依靠自模拟学习,减少对外部服务的依赖。

AI

大型语言模型的涌现行为:参数规模与能力的非线性关系

2025-05-08

大型语言模型(LLM)展现出令人惊讶的涌现行为:当参数数量达到一定规模时,LLM突然能够执行以前无法完成的新任务。文章探讨了这种现象并非偶然,并从自然现象、机器学习算法和LLM本身三个层面解释了其背后的可能性机制。作者认为,LLM的训练过程如同在高维空间中寻找最优解,当参数数量足够大时,能够覆盖到完成特定任务所需的算法空间,从而展现出新的能力。虽然预测LLM何时出现新能力仍然具有挑战性,但这项研究有助于我们理解LLM能力提升的内在规律。

BD3-LMs:块状离散去噪扩散语言模型

2025-05-08
BD3-LMs:块状离散去噪扩散语言模型

BD3-LMs 结合了自回归模型和扩散模型的优势,通过对文本进行分块处理,提高了语言模型的似然性和生成效率。它将文本分割成多个块,并使用离散扩散模型对每个块进行建模,从而实现快速并行生成。这种方法不仅提高了生成速度,还能够有效地处理长文本生成问题。训练和采样算法也进行了优化,只需两次前向传递即可完成所有块的预测,显著提高了效率。

AI

AI通过脑活动重建图像取得突破

2025-05-08
AI通过脑活动重建图像取得突破

一项新的研究表明,人工智能系统能够根据猕猴脑活动记录,重建出其所观看图像的惊人逼真版本。研究人员发现,当AI学习关注大脑的特定区域时,重建图像的准确性得到了显著提高。这标志着在利用脑活动解码视觉信息方面取得了重大进展,未来或将应用于脑机接口等领域。

AI

Ciro:AI赋能销售,效率提升10倍

2025-05-08
Ciro:AI赋能销售,效率提升10倍

Ciro 是一家由 Meta、斯坦福、谷歌和 Bain & Co. 等公司背景的团队创立的 AI 公司,致力于通过 AI 代理提升销售线索挖掘效率。他们开发的产品能自动扫描、筛选和丰富 LinkedIn 等平台上的销售线索,将销售人员在手动搜索和资格预审上花费的时间减少 30% 以上,效率提升 10 倍。Ciro 拥有强大的投资者阵容,包括 Y Combinator、SV Angel 和 CRV 等,并且已经实现现金流为正。

AI

线性回归与梯度下降:从房屋定价到深度学习

2025-05-08
线性回归与梯度下降:从房屋定价到深度学习

本文以房屋定价为例,深入浅出地讲解了线性回归和梯度下降算法。线性回归通过寻找最佳拟合直线来预测房价,而梯度下降则是一种迭代算法,用于找到最小化误差函数的最佳参数。文章比较了绝对误差和平方误差,解释了为什么平方误差在梯度下降中更有效,因为它保证了误差函数的平滑性,从而避免了局部最优解。最终,文章将这些概念与深度学习联系起来,指出深度学习的本质也是通过调整参数来最小化误差。

Anthropic API 集成网络搜索功能

2025-05-07
Anthropic API 集成网络搜索功能

Anthropic 宣布其 Claude API 现已集成网络搜索功能,允许 Claude 访问并处理来自网络的实时信息。开发者可以使用这项功能构建更强大的 AI 应用,例如分析实时股价、进行法律研究或访问最新的 API 文档。Claude 会智能地判断何时需要进行网络搜索,并提供带来源引用的完整答案。此外,还提供了管理员设置,例如域名白名单和黑名单,以增强安全性。这项功能适用于 Claude 3.7 Sonnet、升级版 Claude 3.5 Sonnet 和 Claude 3.5 Haiku,费用为每 1000 次搜索 10 美元,外加标准的 token 成本。

AI

Mistral AI发布企业级AI助手Le Chat Enterprise

2025-05-07
Mistral AI发布企业级AI助手Le Chat Enterprise

Mistral AI发布了其企业级AI助手Le Chat Enterprise,该助手由全新的Mistral Medium 3模型驱动。Le Chat Enterprise旨在解决企业AI面临的挑战,例如工具碎片化、不安全的知识整合、僵化的模型和缓慢的投资回报率。它提供了一个统一的AI平台,适用于所有组织工作,包含企业搜索、代理构建器、自定义数据和工具连接器、文档库、自定义模型和混合部署等功能,并承诺提供隐私优先的数据连接和强大的自定义选项。Mistral AI还同时升级了Le Chat Pro和Team版本。

AI

Instagram联合创始人批评AI公司过度追求用户粘性

2025-05-07
Instagram联合创始人批评AI公司过度追求用户粘性

Instagram联合创始人Kevin Systrom批评一些AI公司为了提升用户粘性而过度追问用户问题,而不是提供真正有用的信息。他将这种策略比作社交媒体公司为激进扩张所用的手段,认为这种做法正在损害用户体验。他指出,一些AI公司为了追求指标(例如使用时长和日活跃用户数)而牺牲了回答质量,建议AI公司应专注于提供高质量的答案,而不是以最简单的方式提升指标。OpenAI对此回应称其AI模型可能缺乏信息,需要进一步澄清。

Jargonic V2:日语语音识别的新标杆

2025-05-07
Jargonic V2:日语语音识别的新标杆

aiOla的Jargonic V2语音识别系统在日语识别领域取得突破性进展。不同于传统的ASR系统,Jargonic V2不仅拥有更高的转录准确率,更能精准识别专业领域术语,例如制造业、物流业、医疗保健和金融业等。其独有的关键字识别技术无需重新训练或手动创建词汇表,即可实时识别特定领域的词汇。在CommonVoice和ReazonSpeech数据集上的测试结果表明,Jargonic V2的特定领域术语召回率高达94.7%,字符错误率也远低于其他竞争对手,例如Whisper v3、ElevenLabs等。这标志着语音识别技术在处理复杂语言和专业术语方面取得了重大进展,为企业级AI应用提供了更可靠的语音接口。

← 前页 1 3 4 5 6 7 8 9 31 32