搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

利用推测执行攻破 ARM 的内存标记扩展 (arxiv.org)

这篇论文揭示了ARM内存标记扩展 (MTE) 面临的潜在安全风险,特别是由推测执行攻击带来的风险。作者发现了一种名为TikTag的新型攻击方法,可以利用推测执行从任意内存地址泄漏MTE标签。通过TikTag,攻击者可以绕过MTE的概率防御,将攻击成功率提高到接近100%。论文展示了TikTag如何绕过现实世界系统(如谷歌浏览器和Linux内核)中的MTE保护机制,并提出了新的防御机制以减轻TikTag带来的安全风险。

语言模型中的拒绝行为由单一方向介导 (arxiv.org)

这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现,模型拒绝行为是由模型残差流激活中一个单一方向介导的,通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法,可以精准地消除模型的拒绝行为,同时对其他能力的影响最小。

聊天机器人失去创造力:语言模型去偏见的代价 (arxiv.org)

大型语言模型(LLM)虽然革新了自然语言处理领域,但也存在偏见和生成有害内容的风险。文章研究发现,采用强化学习人类反馈(RLHF)等校准技术虽然能减少这些问题,但也会降低模型的创造力,即语法和语义多样性。文章通过对 Llama-2 系列模型进行的实验,揭示了校准后的模型在标记预测中熵值较低,嵌入空间中形成独特的聚类,并倾向于“吸引子状态”,表明输出多样性有限。

如何从上下文无关文法枚举树 (arxiv.org)

本文介绍了一种简单算法,用于枚举上下文无关文法 (CFG) 生成的树。该算法使用配对函数在 CFG 推导和自然数之间形成双射,以便可以从计数中唯一地解码树。这提供了一种对自然逻辑语言中的表达式进行编号的通用方法,并且有可能扩展到其他组合问题。该算法还可以推广到更通用的推导形式,包括树上的 Lempel-Ziv 编码的类似物。

学术文献中瑞克摇摆的全面调查 (arxiv.org)

这篇论文调查了互联网文化现象“瑞克摇摆”在学术文献中的存在。研究发现,截至2022年3月,共有23篇学术文献中存在“瑞克摇摆”,主要出现在脚注、代码列表和参考文献中。作者认为,这种现象证明了学术界的灵感和幽默感,对良好的科学发展是有益的。

大型语言模型能否作为基于文本的世界模拟器? (arxiv.org)

这篇论文探讨了大型语言模型(LLM)能否作为基于文本的世界模拟器,用于预测动作如何改变世界状态。研究者创建了一个名为ByteSized32-State-Prediction的新基准数据集,包含文本游戏状态转换和游戏任务。通过测试GPT-4在该数据集上的表现,研究发现尽管GPT-4表现出色,但它仍然是一个不可靠的世界模拟器,需要进一步的创新。

论超大型机器的不可行性 (arxiv.org)

文章论证了机器不可能发展到像人类一样大,更不可能超过人类尺寸。作者从七个不同角度进行论证,最终得出结论:机器尺寸超过人类不仅不可信,而且根本不可能实现。

基于 Mamba 的语言模型的实证研究 (arxiv.org)

本文对基于 Mamba 的语言模型进行了实证研究,比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型在相同数据集上的性能。研究发现,虽然纯 SSM 在许多任务上与 Transformer 相当或优于 Transformer,但在需要强大的复制能力或上下文学习能力的任务上落后于 Transformer。相比之下,8B Mamba-2-Hybrid 在所有 12 项标准任务上都超过了 8B Transformer,并且预计在推理时生成token的速度要快 8 倍。

如果我们用LLaMA-3重新标注数十亿张网络图片会发生什么? (arxiv.org)

文章介绍了一项利用开源大型语言模型LLaMA-3对网络图片进行重新标注的研究。研究人员首先微调了一个基于LLaMA-3-8B的LLaVA-1.5模型,然后用它对来自DataComp-1B数据集的13亿张图片进行了重新标注。实验结果表明,使用这个名为Recap-DataComp-1B的增强数据集训练视觉语言模型可以显著提高模型性能。

PowerInfer-2: 在智能手机上快速推理大型语言模型 (arxiv.org)

PowerInfer-2是一个专为在智能手机上快速推理大型语言模型(LLM)而设计的框架,特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源,将传统的矩阵计算分解成细粒度的“神经元簇”计算,并通过分段神经元缓存和细粒度神经元-集群级流水线技术,最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型,与最先进的框架相比,速度提高了29.2倍。

通过LLaMa-3 8B的蒙特卡洛树自优化方法实现GPT-4级数学奥林匹克解题能力 (arxiv.org)

本文介绍了一种名为MCT自优化的算法(MCTSr),该算法将大型语言模型(LLM)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。针对LLM在准确性和可靠性方面的挑战,特别是在策略性和数学推理方面,MCTSr利用系统探索和启发式自优化机制来改进LLM内的决策框架。该算法通过选择、自优化、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,并利用改进的上置信界(UCB)公式来优化探索-利用平衡。大量实验表明,MCTSr在解决奥林匹克级别的数学问题方面非常有效,显著提高了多个数据集的成功率,包括GSM8K、GSM Hard、MATH,以及奥林匹克级别的基准测试,包括Math Odyssey、AIME和OlympiadBench。

大型语言模型中分类和层次概念的几何学 (arxiv.org)

这篇论文研究了语义如何在大型语言模型的表示空间中编码。研究发现,简单的分类概念表示为单纯形,层次相关的概念在某种意义上是正交的,复杂的概念则表示为由单纯形的直接和构成的多面体,反映了层次结构。这些理论结果在Gemma大型语言模型上得到了验证,使用WordNet的数据估计了957个层次相关概念的表示。

墨西哥计算机:技术与历史简述 (arxiv.org)

20世纪70年代初,微处理器的出现使得设计计算机不再需要像当时的大型计算机公司那样拥有雄厚的经济资源。此后不久,各种基于微处理器的计算机出现在美国和其他发达国家。与那些由大小公司开发大多数个人电脑的国家不同,墨西哥最早的基于微处理器的计算机是在学术机构内设计的。鲜为人知的是,那个时代的墨西哥计算机包括各种各样的系统,从用于特定用途的研究和教学型计算机到高性能个人电脑。本文的目的是详细描述在20世纪70年代末到80年代中期之间设计的这些墨西哥计算机中的一部分。

LLM 代理团队可以利用零日漏洞 (arxiv.org)

这篇论文介绍了 HPTSA,一个由多个 LLM 代理组成的系统,可以利用真实世界中的零日漏洞。之前的代理在单独使用时,难以探索多种不同的漏洞并进行长期规划。为了解决这个问题,HPTSA 引入了一个规划代理,可以启动子代理。规划代理探索系统并确定调用哪些子代理,从而解决尝试不同漏洞时的长期规划问题。研究人员构建了一个包含 15 个真实世界漏洞的基准测试,结果表明,他们的代理团队比之前的工作提高了 4.5 倍。

可扩展的无矩阵乘法语言建模 (arxiv.org)

这篇论文介绍了一种名为“可扩展的无矩阵乘法语言建模”的新方法,旨在解决大型语言模型 (LLM) 中矩阵乘法 (MatMul) 运算带来的计算成本问题。研究表明,即使在数十亿参数规模下,无矩阵乘法模型也能在性能上与最先进的 Transformer 模型相媲美,并且需要的推理内存更少。论文还探讨了该模型的缩放规律、GPU 高效实现以及在 FPGA 上的硬件实现,证明了其在效率和性能方面的优势。

状态空间模型中的状态错觉 (arxiv.org)

本文探讨了状态空间模型(SSM)在构建大型语言模型(LLM)方面的表达能力。研究发现,尽管SSM在架构上类似于循环神经网络(RNN),但其表达能力与Transformer相似,无法表达复杂度超过TC^0的计算,例如排列组合。这意味着SSM无法解决简单的状态跟踪问题,例如跟踪国际象棋的移动、评估代码或跟踪长篇叙述中的实体。实验证明,Mamba风格的SSM在状态跟踪方面确实存在困难。因此,尽管SSM具有循环公式,但其“状态”只是一种错觉,其表达能力的局限性可能会从根本上限制其解决现实世界状态跟踪问题的能力。

σ-GPTs:一种新的自回归模型方法 (arxiv.org)

σ-GPTs是一种新的自回归模型,它对输出添加了位置编码,允许模型根据每个样本动态调整生成顺序。这种方法允许对任意子集进行采样和条件化,并允许根据拒绝策略一次性动态采样多个标记,从而减少模型评估的次数。

前所未见:曲速引擎坍塌产生的引力波 (arxiv.org)

这篇文章探讨了曲速引擎“安全壳失效”后的现象,假设流体具有刚性状态方程。研究人员计算了发出的引力波信号,并跟踪了流体的能量通量。除了推测其可用于在引力波探测器数据中寻找外星生命外,这项工作还研究了违反零能量条件的时空的动力学演化和稳定性,强调了探索奇异新时空的重要性,以模拟前所未见的事物。

是否应该相信你的大型语言模型 (arxiv.org)

这篇论文探讨了大型语言模型(LLM)中的不确定性量化问题,旨在识别查询响应中不确定性较大的情况。作者同时考虑了认知不确定性和随机不确定性,并推导出了一种信息论度量方法,可以仅基于模型输出可靠地检测认知不确定性较大的情况,从而判断模型输出的可靠性。该方法可以用于检测单次和多次响应中的幻觉现象,并通过实验证明了其优势。

爱丽丝梦游仙境:揭示大型语言模型推理崩溃的简单任务 (arxiv.org)

这篇论文揭示了,尽管大型语言模型(LLM)在许多任务中表现出色,但在面对一些简单的常识推理问题时,即使是最大规模的模型也存在严重的推理崩溃问题。这些模型不仅会给出错误答案,还会表现出过度自信,并编造出看似合理的解释来支持其错误结论。即使采用各种提示或多步骤重新评估等干预措施,也无法让模型给出正确答案。

深度无限制文档图像校正 (arxiv.org)

本文介绍了DocTr++,这是一个用于文档图像校正的新型统一框架,对输入的扭曲图像没有任何限制。该方法的主要技术改进包括三个方面:采用分层编码器-解码器结构进行多尺度表示提取和解析;重新定义了无限制扭曲文档图像与其无扭曲对应图像之间的像素级映射关系,并将获得的数据用于训练DocTr++;提供了一个真实世界的测试集和指标,用于评估校正质量。

SaySelf: 教导大型语言模型通过自我反思的推理来表达置信度 (arxiv.org)

大型语言模型 (LLM) 经常生成不准确或虚构的信息,并且通常无法表明其置信度,这限制了它们的广泛应用。这篇论文介绍了 SaySelf,一个训练框架,可以教导 LLM 表达更准确的细粒度置信度估计。除了置信度得分之外,SaySelf 还启动了指导 LLM 生成自我反思性推理的过程,这些推理可以清楚地识别其参数知识中的差距并解释其不确定性。

Grokfast:通过放大慢梯度加速 Grokking (arxiv.org)

这篇文章介绍了一种名为 Grokfast 的新算法,该算法能够加速机器学习模型中的 Grokking 现象,即模型在训练数据上过度拟合后很久才实现泛化。Grokfast 通过将参数梯度的时间序列视为随机信号,并将其分解为快速变化的过拟合分量和缓慢变化的泛化分量。通过放大缓慢变化的梯度分量,Grokfast 可以将 Grokking 现象加速50倍以上。实验证明,Grokfast 算法适用于图像、语言和图等多种任务。

一种用于高级语言和字节码的快速编译算法:复制粘贴编译 (arxiv.org)

文章介绍了一种名为“复制粘贴”的快速编译技术,该技术能够将高级语言和低级字节码程序转换为二进制代码。该技术通过将大型二进制代码库中的代码片段拼接在一起,实现了高效的代码生成。文章展示了该技术在两种用例中的应用:一种用于元编程的类C高级语言编译器和一种WebAssembly编译器。实验结果表明,该技术在编译速度和生成代码的性能方面均优于现有技术。

NeVerMore:利用NVMe-oF存储应用中RDMA的漏洞 (arxiv.org)

本文对流行的RDMA标准InfiniBand架构和NVMe-oF协议进行了安全分析,发现RDMA协议中存在新的漏洞,这些漏洞揭示了RDMA应用程序和NVMe-oF协议的几个攻击向量,表明NVMe-oF协议目前的机制无法解决RDMA带来的安全问题。

NPGA:神经参数化高斯化身 (arxiv.org)

这篇论文介绍了一种名为NPGA的新方法,用于从多视图视频录制中创建高保真、可控的数字化身。该方法基于三维高斯散射技术,并利用神经参数化头部模型(NPHM)的丰富表情空间来驱动化身的动态。为了提高化身的表现力,研究人员在每个图元上增加了潜在特征,并使用拉普拉斯算子来规范动态表情。实验结果表明,NPGA在自reenactment任务上显著优于现有的化身生成方法。

你需要更加注意 (arxiv.org)

本文介绍了三种新的注意力机制,它们在效率和学习能力方面优于标准的多头注意力,从而提高了Transformer模型的性能和更广泛的部署能力。文章提出了优化注意力、高效注意力和超级注意力三种机制,并在MNIST、CIFAR100、IMDB电影评论和亚马逊评论数据集上进行了评估,证明了其优越性。

"看见声音": 基于维格纳-威利分布和卷积神经网络的音频分类 (arxiv.org)

本文提出了一种利用维格纳-威利分布和卷积神经网络对声音数据进行分类的新方法,用于城市环境中的声音传感器数据分析。该方法在开源数据集上取得了良好的分类效果,并探讨了其在城市安全系统中的应用潜力,例如识别枪声和爆炸声。

你不应该知道的量子计算机 (arxiv.org)

本文旨在揭示量子计算机的真相,消除围绕它的神秘感,并阐述其真正的潜力和局限性。作者克里斯·费里挑战了人们对量子计算的常见误解,为各界读者提供了一个清晰的量子未来视角。

Transformer 可以通过正确的嵌入进行算术运算 (arxiv.org)

这篇论文研究了Transformer在算术任务中的表现,发现Transformer难以跟踪数字序列中每个数字的精确位置。作者通过为每个数字添加一个嵌入来编码其相对于数字开头的位置,解决了这个问题。这种方法不仅提高了Transformer在算术任务上的性能,还使得输入注入和循环层等架构改进成为可能。作者还研究了Transformer的逻辑外推能力,发现通过在20位数的训练数据上训练一天,Transformer可以达到最先进的性能,在100位数的加法问题上达到99%的准确率。最后,作者还发现,这些在算术能力上的提升也能应用于其他多步骤推理任务,包括排序和乘法。

1 2 4 6