PowerInfer-2: 在智能手机上快速推理大型语言模型

2024-06-12

PowerInfer-2是一个专为在智能手机上快速推理大型语言模型(LLM)而设计的框架,特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源,将传统的矩阵计算分解成细粒度的“神经元簇”计算,并通过分段神经元缓存和细粒度神经元-集群级流水线技术,最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型,与最先进的框架相比,速度提高了29.2倍。

阅读更多
58
未分类 推理框架

通过LLaMa-3 8B的蒙特卡洛树自优化方法实现GPT-4级数学奥林匹克解题能力

2024-06-12

本文介绍了一种名为MCT自优化的算法(MCTSr),该算法将大型语言模型(LLM)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。针对LLM在准确性和可靠性方面的挑战,特别是在策略性和数学推理方面,MCTSr利用系统探索和启发式自优化机制来改进LLM内的决策框架。该算法通过选择、自优化、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,并利用改进的上置信界(UCB)公式来优化探索-利用平衡。大量实验表明,MCTSr在解决奥林匹克级别的数学问题方面非常有效,显著提高了多个数据集的成功率,包括GSM8K、GSM Hard、MATH,以及奥林匹克级别的基准测试,包括Math Odyssey、AIME和OlympiadBench。

阅读更多
72
未分类 数学推理

大型语言模型中分类和层次概念的几何学

2024-06-11

这篇论文研究了语义如何在大型语言模型的表示空间中编码。研究发现,简单的分类概念表示为单纯形,层次相关的概念在某种意义上是正交的,复杂的概念则表示为由单纯形的直接和构成的多面体,反映了层次结构。这些理论结果在Gemma大型语言模型上得到了验证,使用WordNet的数据估计了957个层次相关概念的表示。

阅读更多
45

墨西哥计算机:技术与历史简述

2024-06-10

20世纪70年代初,微处理器的出现使得设计计算机不再需要像当时的大型计算机公司那样拥有雄厚的经济资源。此后不久,各种基于微处理器的计算机出现在美国和其他发达国家。与那些由大小公司开发大多数个人电脑的国家不同,墨西哥最早的基于微处理器的计算机是在学术机构内设计的。鲜为人知的是,那个时代的墨西哥计算机包括各种各样的系统,从用于特定用途的研究和教学型计算机到高性能个人电脑。本文的目的是详细描述在20世纪70年代末到80年代中期之间设计的这些墨西哥计算机中的一部分。

阅读更多
46
未分类 墨西哥

LLM 代理团队可以利用零日漏洞

2024-06-09

这篇论文介绍了 HPTSA,一个由多个 LLM 代理组成的系统,可以利用真实世界中的零日漏洞。之前的代理在单独使用时,难以探索多种不同的漏洞并进行长期规划。为了解决这个问题,HPTSA 引入了一个规划代理,可以启动子代理。规划代理探索系统并确定调用哪些子代理,从而解决尝试不同漏洞时的长期规划问题。研究人员构建了一个包含 15 个真实世界漏洞的基准测试,结果表明,他们的代理团队比之前的工作提高了 4.5 倍。

阅读更多
53
未分类 零日漏洞

可扩展的无矩阵乘法语言建模

2024-06-09

这篇论文介绍了一种名为“可扩展的无矩阵乘法语言建模”的新方法,旨在解决大型语言模型 (LLM) 中矩阵乘法 (MatMul) 运算带来的计算成本问题。研究表明,即使在数十亿参数规模下,无矩阵乘法模型也能在性能上与最先进的 Transformer 模型相媲美,并且需要的推理内存更少。论文还探讨了该模型的缩放规律、GPU 高效实现以及在 FPGA 上的硬件实现,证明了其在效率和性能方面的优势。

阅读更多
52
未分类 矩阵乘法

状态空间模型中的状态错觉

2024-06-07

本文探讨了状态空间模型(SSM)在构建大型语言模型(LLM)方面的表达能力。研究发现,尽管SSM在架构上类似于循环神经网络(RNN),但其表达能力与Transformer相似,无法表达复杂度超过TC^0的计算,例如排列组合。这意味着SSM无法解决简单的状态跟踪问题,例如跟踪国际象棋的移动、评估代码或跟踪长篇叙述中的实体。实验证明,Mamba风格的SSM在状态跟踪方面确实存在困难。因此,尽管SSM具有循环公式,但其“状态”只是一种错觉,其表达能力的局限性可能会从根本上限制其解决现实世界状态跟踪问题的能力。

阅读更多
60
未分类 状态跟踪

前所未见:曲速引擎坍塌产生的引力波

2024-06-05

这篇文章探讨了曲速引擎“安全壳失效”后的现象,假设流体具有刚性状态方程。研究人员计算了发出的引力波信号,并跟踪了流体的能量通量。除了推测其可用于在引力波探测器数据中寻找外星生命外,这项工作还研究了违反零能量条件的时空的动力学演化和稳定性,强调了探索奇异新时空的重要性,以模拟前所未见的事物。

阅读更多
45
未分类 引力波

是否应该相信你的大型语言模型

2024-06-05

这篇论文探讨了大型语言模型(LLM)中的不确定性量化问题,旨在识别查询响应中不确定性较大的情况。作者同时考虑了认知不确定性和随机不确定性,并推导出了一种信息论度量方法,可以仅基于模型输出可靠地检测认知不确定性较大的情况,从而判断模型输出的可靠性。该方法可以用于检测单次和多次响应中的幻觉现象,并通过实验证明了其优势。

阅读更多
48

爱丽丝梦游仙境:揭示大型语言模型推理崩溃的简单任务

2024-06-05

这篇论文揭示了,尽管大型语言模型(LLM)在许多任务中表现出色,但在面对一些简单的常识推理问题时,即使是最大规模的模型也存在严重的推理崩溃问题。这些模型不仅会给出错误答案,还会表现出过度自信,并编造出看似合理的解释来支持其错误结论。即使采用各种提示或多步骤重新评估等干预措施,也无法让模型给出正确答案。

阅读更多
68

深度无限制文档图像校正

2024-06-05

本文介绍了DocTr++,这是一个用于文档图像校正的新型统一框架,对输入的扭曲图像没有任何限制。该方法的主要技术改进包括三个方面:采用分层编码器-解码器结构进行多尺度表示提取和解析;重新定义了无限制扭曲文档图像与其无扭曲对应图像之间的像素级映射关系,并将获得的数据用于训练DocTr++;提供了一个真实世界的测试集和指标,用于评估校正质量。

阅读更多
51
未分类 文档图像校正

SaySelf: 教导大型语言模型通过自我反思的推理来表达置信度

2024-06-04

大型语言模型 (LLM) 经常生成不准确或虚构的信息,并且通常无法表明其置信度,这限制了它们的广泛应用。这篇论文介绍了 SaySelf,一个训练框架,可以教导 LLM 表达更准确的细粒度置信度估计。除了置信度得分之外,SaySelf 还启动了指导 LLM 生成自我反思性推理的过程,这些推理可以清楚地识别其参数知识中的差距并解释其不确定性。

阅读更多
59

Grokfast:通过放大慢梯度加速 Grokking

2024-06-03

这篇文章介绍了一种名为 Grokfast 的新算法,该算法能够加速机器学习模型中的 Grokking 现象,即模型在训练数据上过度拟合后很久才实现泛化。Grokfast 通过将参数梯度的时间序列视为随机信号,并将其分解为快速变化的过拟合分量和缓慢变化的泛化分量。通过放大缓慢变化的梯度分量,Grokfast 可以将 Grokking 现象加速50倍以上。实验证明,Grokfast 算法适用于图像、语言和图等多种任务。

阅读更多
46
未分类 Grokking

一种用于高级语言和字节码的快速编译算法:复制粘贴编译

2024-06-02

文章介绍了一种名为“复制粘贴”的快速编译技术,该技术能够将高级语言和低级字节码程序转换为二进制代码。该技术通过将大型二进制代码库中的代码片段拼接在一起,实现了高效的代码生成。文章展示了该技术在两种用例中的应用:一种用于元编程的类C高级语言编译器和一种WebAssembly编译器。实验结果表明,该技术在编译速度和生成代码的性能方面均优于现有技术。

阅读更多
39
未分类

NPGA:神经参数化高斯化身

2024-05-31

这篇论文介绍了一种名为NPGA的新方法,用于从多视图视频录制中创建高保真、可控的数字化身。该方法基于三维高斯散射技术,并利用神经参数化头部模型(NPHM)的丰富表情空间来驱动化身的动态。为了提高化身的表现力,研究人员在每个图元上增加了潜在特征,并使用拉普拉斯算子来规范动态表情。实验结果表明,NPGA在自reenactment任务上显著优于现有的化身生成方法。

阅读更多
60

你需要更加注意

2024-05-29

本文介绍了三种新的注意力机制,它们在效率和学习能力方面优于标准的多头注意力,从而提高了Transformer模型的性能和更广泛的部署能力。文章提出了优化注意力、高效注意力和超级注意力三种机制,并在MNIST、CIFAR100、IMDB电影评论和亚马逊评论数据集上进行了评估,证明了其优越性。

阅读更多
44
未分类 Transformer模型

Transformer 可以通过正确的嵌入进行算术运算

2024-05-28

这篇论文研究了Transformer在算术任务中的表现,发现Transformer难以跟踪数字序列中每个数字的精确位置。作者通过为每个数字添加一个嵌入来编码其相对于数字开头的位置,解决了这个问题。这种方法不仅提高了Transformer在算术任务上的性能,还使得输入注入和循环层等架构改进成为可能。作者还研究了Transformer的逻辑外推能力,发现通过在20位数的训练数据上训练一天,Transformer可以达到最先进的性能,在100位数的加法问题上达到99%的准确率。最后,作者还发现,这些在算术能力上的提升也能应用于其他多步骤推理任务,包括排序和乘法。

阅读更多
47
未分类 算术任务

训练有素的 Transformer 是隐式推理器:通向泛化边缘的机械之旅

2024-05-27

本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”,即长时间训练以克服过拟合,来学习隐式推理。然而,不同推理类型的泛化水平有所不同。分析表明,“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现,GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳,而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。

阅读更多
70
未分类 隐式推理 泛化

利用基于Wi-Fi的定位系统监控大众

2024-05-27

本文揭露了苹果公司Wi-Fi定位系统(WPS)存在安全漏洞,攻击者可利用该漏洞获取全球范围内Wi-Fi接入点的地理位置信息,从而对用户隐私构成威胁。研究人员通过分析发现,攻击者可在短短几天内收集到超过20亿个Wi-Fi接入点的精确位置数据,并通过追踪移动设备的Wi-Fi连接,监控设备的活动轨迹,例如进出战区、自然灾害区域以及个人行踪等。

阅读更多
79

火星快车HRSC观测揭示火卫一的光度特性

2024-05-27

该研究利用火星快车任务的观测数据分析了火卫一的光度特性,旨在为火星卫星探测任务提供支持。研究人员分析了火星快车上的高分辨率立体相机(HRSC)和超分辨率相机(SRC)在2004年至2022年期间拍摄的火卫一图像,并使用Hapke模型对整个卫星和局部区域进行了光度分析。研究发现,火卫一表面整体较暗,几何反照率为6.8%,并呈现出强烈的冲日效应。

阅读更多
42

从实践中汲取的关于语言模型可重复性评估的经验教训

2024-05-25

这篇论文探讨了语言模型评估中的挑战,并提供了解决方案和最佳实践。作者指出模型评估对设置的敏感性、方法比较的难度以及可重复性和透明性的缺乏是主要挑战。他们提出了语言模型评估工具包(lm-eval),这是一个开源库,用于独立、可复制和可扩展的语言模型评估。

阅读更多
46
未分类 可重复性

热力学自然梯度下降

2024-05-24

文章介绍了一种名为“热力学自然梯度下降”的新型数字-模拟混合算法,用于训练神经网络。该算法利用模拟系统的热力学特性,在特定参数范围内等效于自然梯度下降,但避免了计算成本高昂的线性系统求解。研究人员通过数值模拟证明,在分类任务和语言模型微调任务中,这种方法优于最先进的数字一阶和二阶训练方法。

阅读更多
45
未分类 自然梯度下降

Chameleon:混合模态早期融合基础模型

2024-05-21

本文介绍了 Chameleon,这是一个基于早期融合的混合模态模型系列,能够理解和生成任意顺序的图像和文本。该模型在视觉问答、图像描述、文本生成、图像生成和长格式混合模态生成等一系列任务上进行了评估,表现出广泛的通用能力。Chameleon 在图像描述任务中表现出色,在纯文本任务中超越了 Llama-2,同时与 Mixtral 8x7B 和 Gemini-Pro 等模型相比具有竞争力,并在单个模型中实现了图像生成。

阅读更多
51

用于高效推理大型语言模型的层压缩KV缓存

2024-05-20

大型语言模型在实际应用部署中,面临着巨大的内存消耗瓶颈,其中,Transformer架构中注意力机制的键值(KV)缓存消耗了大量内存。本文提出一种新型层压缩KV缓存方法,仅计算和缓存少量层的KV,显著节省内存消耗并提升推理吞吐量。实验证明,该方法在大型语言模型上实现了高达26倍的吞吐量提升,并在语言建模和下游任务中取得了具有竞争力的性能。

阅读更多
85

算法设计教学:文献综述

2024-05-20

这篇文献综述回顾了计算机科学教育领域关于算法设计教学的研究。研究发现,尽管算法设计是计算机科学本科课程中的一项重要技能,但针对其教学法的研究却很少。作者通过对ACM数据库的检索,仅发现了94篇符合条件的论文,这表明在算法设计教学方面还有很多未解之谜。该综述还强调了采用严格研究方法的必要性,并指出现有文献大多集中在将已有的教学实践(如主动学习和自动评估)应用于算法课堂。

阅读更多
49
1 2 3 4 6 8