突破性进展:将C代码安全编译为Rust
研究人员开发了一种新方法,能将C语言代码安全地编译成Rust语言。这项技术利用静态分析和类型导向转换,避免了依赖Rust的`unsafe`代码块,从而保证了内存安全。该方法已成功应用于HACL*加密库和EverParse库中的代码,生成了一个8万行纯Rust编写的、经过验证的现代加密库,这是业界首创。
阅读更多
研究人员开发了一种新方法,能将C语言代码安全地编译成Rust语言。这项技术利用静态分析和类型导向转换,避免了依赖Rust的`unsafe`代码块,从而保证了内存安全。该方法已成功应用于HACL*加密库和EverParse库中的代码,生成了一个8万行纯Rust编写的、经过验证的现代加密库,这是业界首创。
阅读更多
研究人员提出了一种新颖的轻量级内容安全和提示注入分类技术——层增强分类(LEC)。LEC利用精简的惩罚逻辑回归(PLR)分类器对大型语言模型(LLM)最佳中间转换器层的隐藏状态进行训练。通过结合高效的PLR分类器和LLM强大的语言理解能力,LEC在性能上超越了GPT-4o和其他专用模型。研究发现,小型通用模型(如Qwen 2.5)和DeBERTa v3等其他基于转换器的架构是强大的特征提取器,只需不到100个高质量示例即可有效训练简单的分类器。重要的是,这些模型的中间转换器层通常优于最终层。该研究表明,单个通用LLM可以同时用于内容安全分类、提示注入检测和输出标记生成,或者将这些相对较小的LLM修剪到最佳中间层,专门用作强大的特征提取器。
阅读更多
一项新的研究将经典排序算法作为形态发生模型进行研究,颠覆了以往对这些算法的认知。研究人员通过打破传统算法的假设,即自上而下的控制和完全可靠的硬件,发现即使在存在错误的情况下,由自主单元组成的数组也能更可靠、更稳健地进行排序。更令人惊讶的是,这些算法展现出在面对缺陷时临时降低进度以绕过障碍的能力,以及在嵌合阵列中单元之间出现意想不到的聚类行为。这项研究为多元智能领域带来了新的视角,表明即使在简单的系统中,基础形式的智能也可以自发涌现,而无需在底层机制中明确编码。
阅读更多
研究人员探索了多个大型语言模型(LLM)代理在迭代部署中,能否在背叛的激励下学习互利的社会规范。实验发现,不同基础模型的合作演变差异显著,Claude 3.5 Sonnet的表现优于Gemini 1.5 Flash和GPT-4o。Claude 3.5 Sonnet还能利用额外的惩罚机制来提高得分。该研究提出了一种新的LLM基准测试方法,关注LLM代理部署对社会合作基础设施的影响,为构建更强大的AI代理提供了新的思路。
阅读更多
研究人员提出了一种名为SGD-SaI的新型优化器,它对随机梯度下降法进行了改进。SGD-SaI通过根据梯度信噪比对不同参数组进行初始化学习率缩放,从而避免了训练不平衡问题,并且在内存效率方面远超AdamW。在各种Transformer模型任务(包括图像分类和大型语言模型预训练)中,SGD-SaI的表现与AdamW不相上下甚至更好,展现出其在不同应用中的鲁棒性和实用性。
阅读更多
研究人员开发了一种名为“最佳N次尝试”(BoN)的AI攻击算法,该算法通过反复修改提示信息(例如随机打乱或大写文本提示),直到诱导AI系统给出有害回应。实验表明,BoN在闭源语言模型(如GPT-4o和Claude 3.5 Sonnet)上取得了高达89%和78%的攻击成功率,并且能够有效绕过现有防御机制,甚至扩展到视觉和音频语言模型。该研究表明,即使是先进的语言模型也容易受到看似无害的输入变化的影响,这为AI安全敲响了警钟。
阅读更多
CCxTrust是一个创新的隐私计算平台,它巧妙地结合了可信执行环境(TEE)和可信平台模块(TPM)的优势,构建了一个协同信任框架。通过TEE的“黑盒”RoT和TPM的灵活“白盒”RoT,CCxTrust实现了对敏感数据和模型的端到端保护,并解决了单一硬件信任根的局限性。该平台还支持独立的测量信任根(RTM)和协同的报告信任根(RTR),并通过一个复合认证协议提升了安全性和效率。实验结果表明,CCxTrust在性能方面也具有显著优势。
阅读更多
研究人员首次提出了一种用于验证域名系统(DNS)的判定过程,并确定其复杂度为2ExpTime。该研究通过形式化DNS语义,并使用一种新颖的基于正前缀可测试语言的抽象方法,将DNS验证问题简化为对下推系统的验证问题。该方法能够有效建模DNS中的攻击向量,例如放大攻击和重写黑洞攻击,为保障DNS安全性和可靠性提供了新的理论基础。
阅读更多
大型语言模型(LLM)通常在“语言空间”中进行推理,使用思维链(CoT)解决复杂问题。然而,语言空间并非总是最优的,因为许多词语对推理并非必要,而一些关键词语又需要复杂的规划。本文介绍了一种新的范式Coconut(连续思维链),它利用LLM的最后一个隐藏状态作为推理状态(称为“连续思维”)的表示,并将其直接反馈给LLM作为后续输入嵌入,而不是将其解码为词语标记。实验表明,Coconut可以有效地增强LLM在多个推理任务上的性能。这种新的潜在推理范式带来了高级推理模式:连续思维可以编码多个替代的推理步骤,允许模型执行广度优先搜索(BFS)来解决问题,而不是像CoT那样过早地提交到单一的确定性路径。在某些需要大量回溯的逻辑推理任务中,Coconut的性能优于CoT,并且推理所需的思维标记更少。
阅读更多
本文研究了大型语言模型(LLM)广泛应用后可能带来的影响,特别是LLM生成内容被用于训练后续模型的场景。研究发现,使用模型生成的内容进行训练会导致生成的模型出现不可逆的缺陷,即原始内容分布的尾部消失,这种现象被称为“模型崩溃”。该现象在变分自编码器、高斯混合模型和LLM中均有出现。作者构建了该现象背后的理论直觉,并描绘了其在所有学习生成模型中的普遍性。研究指出,如果要保持从网络大规模数据中训练的优势,就必须认真对待这个问题。随着互联网上LLM生成内容的增多,收集关于真实人类与系统交互的数据的价值将越来越高。
阅读更多
本文介绍了如何使用Minecraft游戏实验性地估算四个不同的数学常数:√2、π、欧拉数e和阿培里常数ζ(3)。文章首先简要介绍了每个常数的历史及其在数学中的应用,然后解释了如何利用Minecraft的机制来估算这些常数。文章的目标不在于获得最精确的近似值,而是激发人们在学习各种数学主题的同时享受乐趣。
阅读更多
本文研究了基于输入优化计算流程的动态执行技术,旨在识别可以用更少资源解决的简单问题。讨论的技术包括深度网络的提前退出、语言模型的推测性采样和扩散模型的自适应步骤。实验结果表明,这些动态方法可以显著提高延迟和吞吐量,而不会影响质量。结合量化等基于模型的优化,动态执行提供了一种强大的多管齐下的AI推理优化策略。文章还介绍了将这些技术集成到英特尔性能库和Huggingface Optimum中的案例,以提高其易用性和采用率。
阅读更多
大型语言模型(LLM)的推理能力一直备受关注,本文研究了LLM在执行推理任务时所使用的泛化策略。研究人员通过分析对模型输出有影响的预训练数据,发现LLM在处理事实性问题和推理问题时依赖不同的数据。对于事实性问题,模型依赖于不同的数据集;而对于推理问题,同一任务下的不同问题往往依赖于相似的数据,这表明LLM具备程序性知识。此外,推理问题的答案和中间步骤的答案通常不会在最有影响力的数据中出现。通过对推理问题中最具影响力的文档进行定性分析,研究人员确认这些文档通常包含程序性知识,例如演示如何使用公式或代码获得解决方案。研究结果表明,LLM的推理方法不像检索,而更像一种从执行类似推理的文档中综合程序性知识的泛化策略。
阅读更多
本文将拥有大小为T的词汇表和大小为K的上下文窗口的通用自回归语言模型与在大小为O(T^K)的有限状态空间上定义的马尔可夫链进行了等效性分析。文中探讨了LLM推理能力的马尔可夫链平稳分布的存在性、收敛速度以及温度对收敛速度的影响,并推导了预训练和上下文泛化界限。最后, 通过在几个最新的LLM上进行实验,说明了理论保证如何捕捉实际观察到的行为。
阅读更多
该研究发现了下一词预测(NTP)中的潜在物理规律,提出了信息容量第一定律(IC-1),指出自回归模型中智能涌现的本质是一个信息传递过程。同时,该研究将Landauer原理引入NTP,制定了信息容量第二定律(IC-2),建立了自回归模型训练与能量消耗之间的关系,并提出了一些对实际应用具有指导意义的推论。最后,该研究论证了信息容量定律与神经语言模型的缩放定律、知识容量缩放定律和精度缩放定律之间的一致性。
阅读更多
本文研究了语义正则表达式的成员测试问题,提出了一种基于NFA的两遍算法,用于确定字符串是否匹配语义正则表达式。该算法时间复杂度为O(|r|^2 |w|^2 + |r| |w|^3),在没有嵌套查询的常见情况下,时间复杂度为O(|r|^2 |w|^2)。实验验证了该算法的有效性,其性能远超基于动态规划的基线方法。此外,文章还探讨了语义正则表达式成员测试与图论中三角形查找问题之间的联系,并证明了进行成员测试所需oracle查询次数的下界为Ω(|w|^2)。
阅读更多
本文介绍了如何使用3D打印机和现成组件构建两种不同类型的用于1英寸光学元件的电动旋转支架。一种用于反射元件(如镜子和光栅),另一种用于透射元件(如偏振器和延迟器)。文章评估并比较了它们与商业系统的性能,包括速度、分辨率、精度、反冲和轴摆动,并使用艾伦方差分析研究了角度稳定性。结果表明,自制支架的性能与价格超过2000欧元的系统相似,而制造成本不到200欧元,且构建速度更快。文章还展示了如何在光镊和拉曼光谱装置中控制激光,最终实现了0.03个百分点或更高的分辨率的强度控制。
阅读更多
Deegen是一个元编译器,可以自动生成带有JIT功能的高性能虚拟机,用于动态语言。用户只需以C++函数的形式提供字节码的执行语义,Deegen即可生成包含解释器、基准JIT编译器和tier-switching逻辑的双层VM执行引擎。Deegen生成的解释器性能优于现有技术水平,并且首次实现了JIT编译器的自动生成。通过字节码特化、寄存器 pinning、内联缓存等多种优化,Deegen生成的代码质量可与专家手写的汇编代码媲美。使用Deegen实现的LuaJIT Remake (LJR) 在44个基准测试中,解释器性能比官方PUC Lua解释器快179%,比LuaJIT解释器快31%;基准JIT启动延迟极低,执行性能比PUC Lua快360%,仅比LuaJIT的优化JIT慢33%,甚至在13个基准测试中更快。
阅读更多
研究人员利用ALMA在扩展配置下测量了奥尔特云彗星C/2014 UN271 (Bernardinelli-Bernstein)的1287微米连续通量,确定其表面等效直径为137±17公里,红色几何反照率为5.3±1.2%。这证实了C/2014 UN271是迄今为止发现的最大的奥尔特云天体,几乎是彗星C/1995 O1 Hale-Bopp的两倍大,也是太阳系中已知的最大彗星(除具有爆发活动的半人马小行星95P/Chiron外)。该天体的反照率与典型彗星相似,进一步证实了彗核反照率的普遍性。
阅读更多
本文介绍了SAMURAI,一种针对视觉对象跟踪的SAM 2增强型自适应模型。SAM 2在对象分割任务中表现出色,但在视觉对象跟踪方面面临挑战,尤其是在处理快速移动或自遮挡对象的拥挤场景时。SAMURAI通过结合时间运动线索和提出的运动感知记忆选择机制,有效地预测对象运动并改进掩码选择,实现了无需重新训练或微调的鲁棒、准确的跟踪。SAMURAI实时运行,并在各种基准数据集上展现了强大的零样本性能。在评估中,SAMURAI在成功率和精度方面比现有跟踪器有了显著提高,在LaSOT$_{ ext{ext}}$上AUC增益7.1%,在GOT-10k上AO增益3.5%。此外,它在LaSOT上取得了与全监督方法相比具有竞争力的结果。
阅读更多
本文介绍了WhisperNER,一个可以联合进行语音转录和实体识别的模型。该模型支持开放类型的命名实体识别,能够在推理过程中识别多样且不断变化的实体。研究人员利用合成的语音样本增强了一个大型合成数据集,并用NER标签提示模型,对其进行优化以输出转录的语音以及相应的标记实体。实验结果表明,WhisperNER在域外开放类型命名实体识别和监督微调方面均优于自然基线。
阅读更多
本文介绍了一种名为"1-bit AI Infra"的软件栈,旨在充分发挥1比特大型语言模型(LLM)的潜力,例如BitNet和BitNet b1.58。该软件栈开发了一套内核,支持在CPU上对三元BitNet b1.58 LLM进行快速且无损的推理。实验结果表明,在x86 CPU和ARM CPU上,该软件栈分别实现了2.37倍至6.17倍和1.37倍至5.07倍的显著加速。
阅读更多
本文综述了构建量子超级计算机的扩展挑战和机遇。文章指出,量子计算从理论构想发展到如今的小规模演示,取得了显著进展,但通往全面可扩展技术的道路仍不明朗。硬件、制造、软件架构和算法方面存在诸多挑战。文章提出采用现有半导体技术构建更高质量的量子比特、运用系统工程方法以及在异构高性能计算基础设施内进行分布式量子计算,是应对这些挑战的潜在解决方案,并探讨了量子模拟/学习在自然或人工量子系统产生的量子数据方面的应用前景。此外,文章还对量子化学计算进行了资源和敏感性分析,并提出分布式量子辅助概率计算是解决工业级经典优化和机器学习问题的补充途径。
阅读更多
IUMENTA是一个创新的软件框架,旨在构建和模拟动物的数字孪生。它利用开放数字孪生平台(ODTP)的功能和先进的软件传感器,为研究人员提供了一个用户友好的工具,以无缝开发基于动物的数字复制品。该框架建立了一个动态生态系统,整合来自不同实验的见解,从而增强我们对动物行为和生理反应的理解。通过实时跟踪动物的能量平衡,IUMENTA可以深入了解动物的代谢率、营养需求、情绪状态和整体健康状况。本文探讨了IUMENTA框架在开发以动物能量平衡为中心的数字孪生模型中的应用,其中包含了名为EnergyTag的先进可穿戴软件传感器,可以实时监测能量消耗,从而实现对能量平衡数字孪生的持续更新和个性化。
阅读更多