这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现,模型拒绝行为是由模型残差流激活中一个单一方向介导的,通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法,可以精准地消除模型的拒绝行为,同时对其他能力的影响最小。
大型语言模型(LLM)虽然革新了自然语言处理领域,但也存在偏见和生成有害内容的风险。文章研究发现,采用强化学习人类反馈(RLHF)等校准技术虽然能减少这些问题,但也会降低模型的创造力,即语法和语义多样性。文章通过对 Llama-2 系列模型进行的实验,揭示了校准后的模型在标记预测中熵值较低,嵌入空间中形成独特的聚类,并倾向于“吸引子状态”,表明输出多样性有限。
本文介绍了一种简单算法,用于枚举上下文无关文法 (CFG) 生成的树。该算法使用配对函数在 CFG 推导和自然数之间形成双射,以便可以从计数中唯一地解码树。这提供了一种对自然逻辑语言中的表达式进行编号的通用方法,并且有可能扩展到其他组合问题。该算法还可以推广到更通用的推导形式,包括树上的 Lempel-Ziv 编码的类似物。
文章论证了机器不可能发展到像人类一样大,更不可能超过人类尺寸。作者从七个不同角度进行论证,最终得出结论:机器尺寸超过人类不仅不可信,而且根本不可能实现。
本文对基于 Mamba 的语言模型进行了实证研究,比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型在相同数据集上的性能。研究发现,虽然纯 SSM 在许多任务上与 Transformer 相当或优于 Transformer,但在需要强大的复制能力或上下文学习能力的任务上落后于 Transformer。相比之下,8B Mamba-2-Hybrid 在所有 12 项标准任务上都超过了 8B Transformer,并且预计在推理时生成token的速度要快 8 倍。
PowerInfer-2是一个专为在智能手机上快速推理大型语言模型(LLM)而设计的框架,特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源,将传统的矩阵计算分解成细粒度的“神经元簇”计算,并通过分段神经元缓存和细粒度神经元-集群级流水线技术,最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型,与最先进的框架相比,速度提高了29.2倍。
本文介绍了一种名为MCT自优化的算法(MCTSr),该算法将大型语言模型(LLM)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。针对LLM在准确性和可靠性方面的挑战,特别是在策略性和数学推理方面,MCTSr利用系统探索和启发式自优化机制来改进LLM内的决策框架。该算法通过选择、自优化、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,并利用改进的上置信界(UCB)公式来优化探索-利用平衡。大量实验表明,MCTSr在解决奥林匹克级别的数学问题方面非常有效,显著提高了多个数据集的成功率,包括GSM8K、GSM Hard、MATH,以及奥林匹克级别的基准测试,包括Math Odyssey、AIME和OlympiadBench。
20世纪70年代初,微处理器的出现使得设计计算机不再需要像当时的大型计算机公司那样拥有雄厚的经济资源。此后不久,各种基于微处理器的计算机出现在美国和其他发达国家。与那些由大小公司开发大多数个人电脑的国家不同,墨西哥最早的基于微处理器的计算机是在学术机构内设计的。鲜为人知的是,那个时代的墨西哥计算机包括各种各样的系统,从用于特定用途的研究和教学型计算机到高性能个人电脑。本文的目的是详细描述在20世纪70年代末到80年代中期之间设计的这些墨西哥计算机中的一部分。
这篇论文介绍了 HPTSA,一个由多个 LLM 代理组成的系统,可以利用真实世界中的零日漏洞。之前的代理在单独使用时,难以探索多种不同的漏洞并进行长期规划。为了解决这个问题,HPTSA 引入了一个规划代理,可以启动子代理。规划代理探索系统并确定调用哪些子代理,从而解决尝试不同漏洞时的长期规划问题。研究人员构建了一个包含 15 个真实世界漏洞的基准测试,结果表明,他们的代理团队比之前的工作提高了 4.5 倍。
这篇论文介绍了一种名为“可扩展的无矩阵乘法语言建模”的新方法,旨在解决大型语言模型 (LLM) 中矩阵乘法 (MatMul) 运算带来的计算成本问题。研究表明,即使在数十亿参数规模下,无矩阵乘法模型也能在性能上与最先进的 Transformer 模型相媲美,并且需要的推理内存更少。论文还探讨了该模型的缩放规律、GPU 高效实现以及在 FPGA 上的硬件实现,证明了其在效率和性能方面的优势。
本文探讨了状态空间模型(SSM)在构建大型语言模型(LLM)方面的表达能力。研究发现,尽管SSM在架构上类似于循环神经网络(RNN),但其表达能力与Transformer相似,无法表达复杂度超过TC^0的计算,例如排列组合。这意味着SSM无法解决简单的状态跟踪问题,例如跟踪国际象棋的移动、评估代码或跟踪长篇叙述中的实体。实验证明,Mamba风格的SSM在状态跟踪方面确实存在困难。因此,尽管SSM具有循环公式,但其“状态”只是一种错觉,其表达能力的局限性可能会从根本上限制其解决现实世界状态跟踪问题的能力。
σ-GPTs是一种新的自回归模型,它对输出添加了位置编码,允许模型根据每个样本动态调整生成顺序。这种方法允许对任意子集进行采样和条件化,并允许根据拒绝策略一次性动态采样多个标记,从而减少模型评估的次数。
这篇文章探讨了曲速引擎“安全壳失效”后的现象,假设流体具有刚性状态方程。研究人员计算了发出的引力波信号,并跟踪了流体的能量通量。除了推测其可用于在引力波探测器数据中寻找外星生命外,这项工作还研究了违反零能量条件的时空的动力学演化和稳定性,强调了探索奇异新时空的重要性,以模拟前所未见的事物。
本文介绍了DocTr++,这是一个用于文档图像校正的新型统一框架,对输入的扭曲图像没有任何限制。该方法的主要技术改进包括三个方面:采用分层编码器-解码器结构进行多尺度表示提取和解析;重新定义了无限制扭曲文档图像与其无扭曲对应图像之间的像素级映射关系,并将获得的数据用于训练DocTr++;提供了一个真实世界的测试集和指标,用于评估校正质量。
这篇文章介绍了一种名为 Grokfast 的新算法,该算法能够加速机器学习模型中的 Grokking 现象,即模型在训练数据上过度拟合后很久才实现泛化。Grokfast 通过将参数梯度的时间序列视为随机信号,并将其分解为快速变化的过拟合分量和缓慢变化的泛化分量。通过放大缓慢变化的梯度分量,Grokfast 可以将 Grokking 现象加速50倍以上。实验证明,Grokfast 算法适用于图像、语言和图等多种任务。
文章介绍了一种名为“复制粘贴”的快速编译技术,该技术能够将高级语言和低级字节码程序转换为二进制代码。该技术通过将大型二进制代码库中的代码片段拼接在一起,实现了高效的代码生成。文章展示了该技术在两种用例中的应用:一种用于元编程的类C高级语言编译器和一种WebAssembly编译器。实验结果表明,该技术在编译速度和生成代码的性能方面均优于现有技术。
这篇论文研究了Transformer在算术任务中的表现,发现Transformer难以跟踪数字序列中每个数字的精确位置。作者通过为每个数字添加一个嵌入来编码其相对于数字开头的位置,解决了这个问题。这种方法不仅提高了Transformer在算术任务上的性能,还使得输入注入和循环层等架构改进成为可能。作者还研究了Transformer的逻辑外推能力,发现通过在20位数的训练数据上训练一天,Transformer可以达到最先进的性能,在100位数的加法问题上达到99%的准确率。最后,作者还发现,这些在算术能力上的提升也能应用于其他多步骤推理任务,包括排序和乘法。