Titans:测试时学习记忆的全新神经网络架构

2025-01-16
Titans:测试时学习记忆的全新神经网络架构

研究人员提出了一种名为Titans的新型神经网络架构,它结合了神经记忆模块和注意力机制,能够有效地记忆长期的历史上下文信息。不同于传统的循环模型和注意力机制,Titans在处理长序列数据时具有更高的效率和准确性,尤其在“大海捞针”的任务中表现突出。该架构在语言建模、常识推理、基因组学和时间序列等多个任务上均取得了优于Transformer和线性循环模型的成果,并可扩展至超过200万上下文窗口大小。

阅读更多

LLM系统2推理:元链式思考的突破

2025-01-10
LLM系统2推理:元链式思考的突破

研究人员提出了一种名为“元链式思考”(Meta-CoT)的新框架,它扩展了传统的链式思考(CoT),通过显式建模得出特定CoT所需的底层推理过程。该框架利用过程监督、合成数据生成和搜索算法生成元CoT,并提出了一种具体的训练流程,结合指令微调和线性化搜索轨迹以及强化学习后训练。这项工作为在大型语言模型中实现元链式思考提供了一个理论和实践路线图,为人工智能中更强大、更人性化的推理铺平了道路。

阅读更多

CAP定理的挑战:异步环境下的部分进展猜想

2025-01-08
CAP定理的挑战:异步环境下的部分进展猜想

一篇新的论文挑战了著名的CAP定理。作者们提出,在网络分区的情况下,部分进展是可能的,即系统可以对部分客户端保持响应并实现非零吞吐量。他们提出了CASSANDRA共识协议的设计,允许分区副本对客户端请求进行排序,从而在保持一定一致性的同时,保证系统的可用性。这项研究为构建更健壮的分布式系统提供了新的思路。

阅读更多
开发

时间序列异常检测十年回顾

2025-01-06
时间序列异常检测十年回顾

随着数据收集技术的进步和海量数据流的涌现,时间序列分析变得至关重要。这篇论文对时间序列异常检测进行了十年回顾,涵盖了从传统统计方法到近年来兴起的机器学习算法的各种方法。文章以流程为中心的分类法对现有解决方案进行了归纳总结,并对文献进行了元分析,阐明了时间序列异常检测研究的总体趋势,为该领域的研究提供了宝贵的参考。

阅读更多
AI

科学家用科学方法征服了Cacio e Pepe酱

2025-01-04
科学家用科学方法征服了Cacio e Pepe酱

一群科学家对意大利经典菜肴Cacio e Pepe酱进行了深入研究,揭示了其完美的稠度和乳脂感的秘密。他们发现,淀粉的浓度是关键因素,淀粉浓度低于奶酪质量的1%会导致酱汁结块,形成所谓的“马苏里拉阶段”。研究还探究了奶酪和水的比例对酱汁的影响,并建立了一个有效的自由能模型进行理论解释。最终,他们基于研究结果,给出了一个科学优化的食谱,保证每次都能做出完美的Cacio e Pepe酱。

阅读更多

复现OpenAI o1:强化学习视角下的搜索与学习路线图

2025-01-03
复现OpenAI o1:强化学习视角下的搜索与学习路线图

一篇新的论文从强化学习的角度,探索了复现OpenAI神秘模型o1的路径。研究者认为,o1强大的推理能力并非源于单一技术,而是策略初始化、奖励设计、搜索和学习四个关键组件的协同作用。策略初始化赋予模型类人的推理能力;奖励设计提供密集有效的信号指导搜索和学习;搜索在训练和测试阶段生成高质量的解决方案;学习利用搜索生成的数据改进策略,最终实现更好的性能。该论文为理解和复现o1提供了宝贵的参考,并为大型语言模型的研发提供了新的思路。

阅读更多
AI

GitHub惊现450万疑似假星:一场流行度竞赛的阴暗面

2025-01-02
GitHub惊现450万疑似假星:一场流行度竞赛的阴暗面

一项新的研究发现GitHub上存在450万个疑似虚假的点赞(star),这些虚假点赞主要用于推广短期存在的恶意软件仓库,例如伪装成盗版软件、游戏作弊器或加密货币机器人。研究人员开发了一个名为StarScout的工具,能够检测异常的点赞行为。研究表明,虚假点赞活动自2024年以来急剧增加,虽然虚假点赞者在用户画像上与普通用户无异,但其活动模式异常。虽然短期内虚假点赞能起到推广作用,但长期来看反而会成为负担。这项研究对平台管理员、开源从业者和供应链安全研究人员具有重要意义。

阅读更多
安全

TinyStories:小模型也能讲好故事?

2025-01-02
TinyStories:小模型也能讲好故事?

研究人员开发了TinyStories数据集,这是一个由GPT-3.5和GPT-4生成的简短故事集,仅包含3-4岁儿童通常理解的词汇。利用TinyStories训练的小型语言模型(参数少于1000万),即使架构简单(只有一个Transformer块),也能生成流畅、连贯的多段故事,展现出令人惊讶的语法和推理能力。这项研究挑战了大型语言模型才能生成连贯文本的传统观点,并提出了一种新的模型评估方法,使用GPT-4对模型生成的文本进行评分,克服了传统基准的局限性。

阅读更多

激活工程:操纵大型语言模型的个性特征

2024-12-31
激活工程:操纵大型语言模型的个性特征

一篇发表在arXiv上的论文探讨了利用“激活工程”技术来识别和操纵大型语言模型(LLM)个性特征的方法。研究人员受到先前关于LLM拒绝和引导研究的启发,提出了一种通过调整与个性特征相关的激活方向来实现LLM个性动态微调的方法。这项研究不仅加深了我们对LLM可解释性的理解,也引发了对这类技术伦理影响的思考。

阅读更多

深度学习优化中超越梯度平均:梯度一致性过滤提高鲁棒性

2024-12-30
深度学习优化中超越梯度平均:梯度一致性过滤提高鲁棒性

本文提出了一种名为梯度一致性过滤 (GAF) 的新方法,用于改进分布式深度学习优化中的梯度平均。传统方法平均微批量梯度来计算宏批量梯度,但这在训练后期容易导致梯度正交或负相关,从而造成过拟合。GAF 通过计算微梯度间的余弦距离,过滤掉冲突的更新,有效降低了梯度方差,提升了验证精度。实验结果表明,GAF 在 CIFAR-100 和 CIFAR-100N-Fine 等图像分类基准测试中,即使使用更小的微批量大小,也能显著提高精度,最高可达 18.2%,同时降低了计算量。

阅读更多

大型语言模型代码生成能力评估:MultiCodeBench 横空出世

2024-12-30
大型语言模型代码生成能力评估:MultiCodeBench 横空出世

近期,基于代码大型语言模型(LLM)的AI编程助手日益普及,大幅提升了开发效率。然而,现有代码生成基准测试主要关注通用场景,忽略了LLM在特定应用领域的性能。为此,研究人员提出了MultiCodeBench,这是一个包含2400个编程任务的新基准,涵盖12个热门软件开发领域和15种编程语言。通过对11个主流LLM的评估,MultiCodeBench揭示了不同领域LLM的代码生成能力,为开发者选择合适的LLM提供了实用指导,并为模型开发者改进特定领域代码生成能力提供了方向。

阅读更多
1
开发

大型语言模型在单元测试生成中的评估研究取得突破

2024-12-30
大型语言模型在单元测试生成中的评估研究取得突破

研究人员对大型语言模型(LLM)在单元测试自动生成领域的潜力进行了深入评估。他们比较了17个Java项目中五种开源LLM与闭源GPT-4和传统工具Evosuite的性能,并考察了不同提示策略的影响。研究发现,开源LLM在数据隐私和某些任务上表现出色,但同时也揭示了LLM单元测试生成的局限性。该研究为未来LLM在单元测试生成中的应用提供了宝贵的指导意义。

阅读更多
开发

大型语言模型身份混淆研究:信任危机浮现

2024-12-30
大型语言模型身份混淆研究:信任危机浮现

一项最新研究揭示了大型语言模型(LLM)中普遍存在的“身份混淆”问题。研究人员发现,超过25%的LLM存在身份伪造或来源不明的情况,这主要源于模型的“幻觉”,而非复制或重用。这种身份混淆严重损害了用户对LLM的信任,尤其是在教育和专业领域,其负面影响甚至超过逻辑错误。研究结果强调了LLM身份混淆带来的系统性风险,并呼吁关注模型的可靠性和可信度。

阅读更多

利用Shapley值解释大型语言模型决策

2024-12-28
利用Shapley值解释大型语言模型决策

大型语言模型(LLM)在模拟人类行为方面展现出巨大潜力,但其决策机制的透明度有待提高。本文提出了一种基于Shapley值的新方法,用于解释LLM的决策过程,量化提示词中每个组成部分对模型输出的贡献。通过两个应用案例,研究发现LLM决策容易受到“token噪声”的影响,即模型对信息量低的token过度敏感。这引发了对LLM在模拟人类行为方面的可靠性和普适性的担忧,并强调了在使用LLM进行研究时,需要谨慎对待提示词设计,并关注其结果的局限性。

阅读更多

不变式:计算与应用研究取得新进展

2024-12-27
不变式:计算与应用研究取得新进展

一篇发表在ISSAC 2023会议论文集上的教程文章探讨了不变式在数学中的计算和应用。文章重点关注微分和代数不变式理论之间的相互作用,介绍了一种基于微分几何中移动框架方法的代数改编算法,用于计算有理不变式的生成集,并讨论了微分不变式签名在解决几何和代数中等价问题的角色以及基于此概念的算法设计中面临的挑战。

阅读更多
开发 不变式

对抗策略击败超人类围棋AI

2024-12-24
对抗策略击败超人类围棋AI

研究人员通过训练针对KataGo(一款最先进的围棋AI)的对抗策略,取得了超过97%的胜率。这些对抗策略并非通过精妙的围棋技巧取胜,而是诱导KataGo犯下严重的错误。这种攻击方法无需重新训练即可应用于其他超人类围棋AI,甚至人类专家也能轻松掌握并以此击败超人类AI。研究结果表明,即使是超人类AI系统也可能存在意想不到的缺陷。

阅读更多

超新星数据或将颠覆宇宙模型

2024-12-23
超新星数据或将颠覆宇宙模型

一项新的研究对“潘朵拉+”Ia型超新星光谱数据集进行了宇宙学模型无关的统计分析,该研究改进了Lane等人采用的标准方法,仅使用Tripp方程进行超新星标准化,避免了拉伸和颜色分布中的任何潜在相关性。研究发现,“时间景观”宇宙学模型比标准的ΛCDM模型更能解释观测数据,这为重新审视理论和观测宇宙学的基石提供了证据。即使只考虑红移大于0.075的数据(超出传统统计同质性的尺度),时间景观模型仍然优于ΛCDM模型。

阅读更多

离线强化学习提升大语言模型多步推理能力

2024-12-23
离线强化学习提升大语言模型多步推理能力

研究人员提出了一种名为OREO的离线强化学习方法,用于提升大型语言模型(LLM)的多步推理能力。该方法基于最大熵强化学习,通过优化软贝尔曼方程,同时学习策略模型和价值函数,解决了直接偏好优化方法在多步推理任务中数据需求大和信用分配不足的问题。实验结果表明,OREO在数学推理和具身代理控制等多步推理基准测试中优于现有方法。

阅读更多
AI

令数据压缩难题倍增:标记化问题被证明为NP完全问题

2024-12-22
令数据压缩难题倍增:标记化问题被证明为NP完全问题

一篇发表于arXiv的论文证明了两种标记化变体的NP完全性。标记化是将数据集压缩到最多δ个符号的问题,这两种变体分别是直接寻找词汇表(直接标记化)和选择一系列合并操作(自下而上标记化)。这一发现对数据压缩和自然语言处理领域具有重大意义,表明高效解决大规模数据集标记化问题极具挑战性。

阅读更多

突破性进展:将C代码安全编译为Rust

2024-12-21
突破性进展:将C代码安全编译为Rust

研究人员开发了一种新方法,能将C语言代码安全地编译成Rust语言。这项技术利用静态分析和类型导向转换,避免了依赖Rust的`unsafe`代码块,从而保证了内存安全。该方法已成功应用于HACL*加密库和EverParse库中的代码,生成了一个8万行纯Rust编写的、经过验证的现代加密库,这是业界首创。

阅读更多
开发 C语言编译

轻量级安全分类:利用精简语言模型的新方法

2024-12-19
轻量级安全分类:利用精简语言模型的新方法

研究人员提出了一种新颖的轻量级内容安全和提示注入分类技术——层增强分类(LEC)。LEC利用精简的惩罚逻辑回归(PLR)分类器对大型语言模型(LLM)最佳中间转换器层的隐藏状态进行训练。通过结合高效的PLR分类器和LLM强大的语言理解能力,LEC在性能上超越了GPT-4o和其他专用模型。研究发现,小型通用模型(如Qwen 2.5)和DeBERTa v3等其他基于转换器的架构是强大的特征提取器,只需不到100个高质量示例即可有效训练简单的分类器。重要的是,这些模型的中间转换器层通常优于最终层。该研究表明,单个通用LLM可以同时用于内容安全分类、提示注入检测和输出标记生成,或者将这些相对较小的LLM修剪到最佳中间层,专门用作强大的特征提取器。

阅读更多

经典排序算法揭示出基础智能的意外能力

2024-12-19
经典排序算法揭示出基础智能的意外能力

一项新的研究将经典排序算法作为形态发生模型进行研究,颠覆了以往对这些算法的认知。研究人员通过打破传统算法的假设,即自上而下的控制和完全可靠的硬件,发现即使在存在错误的情况下,由自主单元组成的数组也能更可靠、更稳健地进行排序。更令人惊讶的是,这些算法展现出在面对缺陷时临时降低进度以绕过障碍的能力,以及在嵌合阵列中单元之间出现意想不到的聚类行为。这项研究为多元智能领域带来了新的视角,表明即使在简单的系统中,基础形式的智能也可以自发涌现,而无需在底层机制中明确编码。

阅读更多

大型语言模型间的合作文化演变

2024-12-18
大型语言模型间的合作文化演变

研究人员探索了多个大型语言模型(LLM)代理在迭代部署中,能否在背叛的激励下学习互利的社会规范。实验发现,不同基础模型的合作演变差异显著,Claude 3.5 Sonnet的表现优于Gemini 1.5 Flash和GPT-4o。Claude 3.5 Sonnet还能利用额外的惩罚机制来提高得分。该研究提出了一种新的LLM基准测试方法,关注LLM代理部署对社会合作基础设施的影响,为构建更强大的AI代理提供了新的思路。

阅读更多

告别Adam:初始化学习率缩放是训练Transformer的关键

2024-12-18
告别Adam:初始化学习率缩放是训练Transformer的关键

研究人员提出了一种名为SGD-SaI的新型优化器,它对随机梯度下降法进行了改进。SGD-SaI通过根据梯度信噪比对不同参数组进行初始化学习率缩放,从而避免了训练不平衡问题,并且在内存效率方面远超AdamW。在各种Transformer模型任务(包括图像分类和大型语言模型预训练)中,SGD-SaI的表现与AdamW不相上下甚至更好,展现出其在不同应用中的鲁棒性和实用性。

阅读更多

新型AI攻击技术“最佳N次尝试”攻破AI系统

2024-12-15
新型AI攻击技术“最佳N次尝试”攻破AI系统

研究人员开发了一种名为“最佳N次尝试”(BoN)的AI攻击算法,该算法通过反复修改提示信息(例如随机打乱或大写文本提示),直到诱导AI系统给出有害回应。实验表明,BoN在闭源语言模型(如GPT-4o和Claude 3.5 Sonnet)上取得了高达89%和78%的攻击成功率,并且能够有效绕过现有防御机制,甚至扩展到视觉和音频语言模型。该研究表明,即使是先进的语言模型也容易受到看似无害的输入变化的影响,这为AI安全敲响了警钟。

阅读更多
3

科学家研发出自动组装“昆虫机器人”系统

2024-12-15
科学家研发出自动组装“昆虫机器人”系统

研究人员开发了一种自动化系统,能够组装昆虫-计算机混合机器人。该系统利用视觉引导的机械臂,精确地将定制的双极电极植入马达加斯加发声蟑螂的背部。整个过程仅需68秒,组装后的机器人能够实现转向和减速控制,其性能与人工组装的机器人相当。一个由4个机器人组成的多智能体系统成功地穿越了障碍物,证明了该系统在大规模生产和实际应用中的可行性。这项研究为昆虫机器人的大规模生产和应用奠定了基础。

阅读更多

CCxTrust:基于TEE和TPM协同信任的隐私计算平台

2024-12-12
CCxTrust:基于TEE和TPM协同信任的隐私计算平台

CCxTrust是一个创新的隐私计算平台,它巧妙地结合了可信执行环境(TEE)和可信平台模块(TPM)的优势,构建了一个协同信任框架。通过TEE的“黑盒”RoT和TPM的灵活“白盒”RoT,CCxTrust实现了对敏感数据和模型的端到端保护,并解决了单一硬件信任根的局限性。该平台还支持独立的测量信任根(RTM)和协同的报告信任根(RTR),并通过一个复合认证协议提升了安全性和效率。实验结果表明,CCxTrust在性能方面也具有显著优势。

阅读更多

域名系统可达性分析取得突破

2024-12-12
域名系统可达性分析取得突破

研究人员首次提出了一种用于验证域名系统(DNS)的判定过程,并确定其复杂度为2ExpTime。该研究通过形式化DNS语义,并使用一种新颖的基于正前缀可测试语言的抽象方法,将DNS验证问题简化为对下推系统的验证问题。该方法能够有效建模DNS中的攻击向量,例如放大攻击和重写黑洞攻击,为保障DNS安全性和可靠性提供了新的理论基础。

阅读更多

训练大型语言模型在连续潜在空间中进行推理

2024-12-10
训练大型语言模型在连续潜在空间中进行推理

大型语言模型(LLM)通常在“语言空间”中进行推理,使用思维链(CoT)解决复杂问题。然而,语言空间并非总是最优的,因为许多词语对推理并非必要,而一些关键词语又需要复杂的规划。本文介绍了一种新的范式Coconut(连续思维链),它利用LLM的最后一个隐藏状态作为推理状态(称为“连续思维”)的表示,并将其直接反馈给LLM作为后续输入嵌入,而不是将其解码为词语标记。实验表明,Coconut可以有效地增强LLM在多个推理任务上的性能。这种新的潜在推理范式带来了高级推理模式:连续思维可以编码多个替代的推理步骤,允许模型执行广度优先搜索(BFS)来解决问题,而不是像CoT那样过早地提交到单一的确定性路径。在某些需要大量回溯的逻辑推理任务中,Coconut的性能优于CoT,并且推理所需的思维标记更少。

阅读更多
4
未分类 连续潜在空间

六边形蜂巢密铺

2024-12-09
六边形蜂巢密铺

本文介绍了三维双曲空间中的六边形蜂巢密铺结构,记作{6,3,3}。每个六边形有6条边,如同欧几里得平面中由正六边形密铺那样,每个顶点处有3个六边形相交;同时,该结构的每条边也是3个这样的平面的交线。该结构也自然地出现在代数几何中,与Eisenstein整数环、阿贝尔曲面、Néron-Severi群以及主极化等概念相关联。

阅读更多
11
未分类 蜂巢密铺
1 2 4 6 7 8 9 10 11 12