是否应该相信你的大型语言模型

这篇论文探讨了大型语言模型(LLM)中的不确定性量化问题,旨在识别查询响应中不确定性较大的情况。作者同时考虑了认知不确定性和随机不确定性,并推导出了一种信息论度量方法,可以仅基于模型输出可靠地检测认知不确定性较大的情况,从而判断模型输出的可靠性。该方法可以用于检测单次和多次响应中的幻觉现象,并通过实验证明了其优势。
阅读更多
这篇论文探讨了大型语言模型(LLM)中的不确定性量化问题,旨在识别查询响应中不确定性较大的情况。作者同时考虑了认知不确定性和随机不确定性,并推导出了一种信息论度量方法,可以仅基于模型输出可靠地检测认知不确定性较大的情况,从而判断模型输出的可靠性。该方法可以用于检测单次和多次响应中的幻觉现象,并通过实验证明了其优势。
阅读更多
这篇论文揭示了,尽管大型语言模型(LLM)在许多任务中表现出色,但在面对一些简单的常识推理问题时,即使是最大规模的模型也存在严重的推理崩溃问题。这些模型不仅会给出错误答案,还会表现出过度自信,并编造出看似合理的解释来支持其错误结论。即使采用各种提示或多步骤重新评估等干预措施,也无法让模型给出正确答案。
阅读更多
本文介绍了DocTr++,这是一个用于文档图像校正的新型统一框架,对输入的扭曲图像没有任何限制。该方法的主要技术改进包括三个方面:采用分层编码器-解码器结构进行多尺度表示提取和解析;重新定义了无限制扭曲文档图像与其无扭曲对应图像之间的像素级映射关系,并将获得的数据用于训练DocTr++;提供了一个真实世界的测试集和指标,用于评估校正质量。
阅读更多
大型语言模型 (LLM) 经常生成不准确或虚构的信息,并且通常无法表明其置信度,这限制了它们的广泛应用。这篇论文介绍了 SaySelf,一个训练框架,可以教导 LLM 表达更准确的细粒度置信度估计。除了置信度得分之外,SaySelf 还启动了指导 LLM 生成自我反思性推理的过程,这些推理可以清楚地识别其参数知识中的差距并解释其不确定性。
阅读更多
这篇文章介绍了一种名为 Grokfast 的新算法,该算法能够加速机器学习模型中的 Grokking 现象,即模型在训练数据上过度拟合后很久才实现泛化。Grokfast 通过将参数梯度的时间序列视为随机信号,并将其分解为快速变化的过拟合分量和缓慢变化的泛化分量。通过放大缓慢变化的梯度分量,Grokfast 可以将 Grokking 现象加速50倍以上。实验证明,Grokfast 算法适用于图像、语言和图等多种任务。
阅读更多
文章介绍了一种名为“复制粘贴”的快速编译技术,该技术能够将高级语言和低级字节码程序转换为二进制代码。该技术通过将大型二进制代码库中的代码片段拼接在一起,实现了高效的代码生成。文章展示了该技术在两种用例中的应用:一种用于元编程的类C高级语言编译器和一种WebAssembly编译器。实验结果表明,该技术在编译速度和生成代码的性能方面均优于现有技术。
阅读更多
本文对流行的RDMA标准InfiniBand架构和NVMe-oF协议进行了安全分析,发现RDMA协议中存在新的漏洞,这些漏洞揭示了RDMA应用程序和NVMe-oF协议的几个攻击向量,表明NVMe-oF协议目前的机制无法解决RDMA带来的安全问题。
阅读更多
本文介绍了三种新的注意力机制,它们在效率和学习能力方面优于标准的多头注意力,从而提高了Transformer模型的性能和更广泛的部署能力。文章提出了优化注意力、高效注意力和超级注意力三种机制,并在MNIST、CIFAR100、IMDB电影评论和亚马逊评论数据集上进行了评估,证明了其优越性。
阅读更多
本文提出了一种利用维格纳-威利分布和卷积神经网络对声音数据进行分类的新方法,用于城市环境中的声音传感器数据分析。该方法在开源数据集上取得了良好的分类效果,并探讨了其在城市安全系统中的应用潜力,例如识别枪声和爆炸声。
阅读更多
本文旨在揭示量子计算机的真相,消除围绕它的神秘感,并阐述其真正的潜力和局限性。作者克里斯·费里挑战了人们对量子计算的常见误解,为各界读者提供了一个清晰的量子未来视角。
阅读更多
这篇论文研究了Transformer在算术任务中的表现,发现Transformer难以跟踪数字序列中每个数字的精确位置。作者通过为每个数字添加一个嵌入来编码其相对于数字开头的位置,解决了这个问题。这种方法不仅提高了Transformer在算术任务上的性能,还使得输入注入和循环层等架构改进成为可能。作者还研究了Transformer的逻辑外推能力,发现通过在20位数的训练数据上训练一天,Transformer可以达到最先进的性能,在100位数的加法问题上达到99%的准确率。最后,作者还发现,这些在算术能力上的提升也能应用于其他多步骤推理任务,包括排序和乘法。
阅读更多
本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”,即长时间训练以克服过拟合,来学习隐式推理。然而,不同推理类型的泛化水平有所不同。分析表明,“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现,GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳,而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。
阅读更多
本文揭露了苹果公司Wi-Fi定位系统(WPS)存在安全漏洞,攻击者可利用该漏洞获取全球范围内Wi-Fi接入点的地理位置信息,从而对用户隐私构成威胁。研究人员通过分析发现,攻击者可在短短几天内收集到超过20亿个Wi-Fi接入点的精确位置数据,并通过追踪移动设备的Wi-Fi连接,监控设备的活动轨迹,例如进出战区、自然灾害区域以及个人行踪等。
阅读更多
这篇论文探讨了语言模型评估中的挑战,并提供了解决方案和最佳实践。作者指出模型评估对设置的敏感性、方法比较的难度以及可重复性和透明性的缺乏是主要挑战。他们提出了语言模型评估工具包(lm-eval),这是一个开源库,用于独立、可复制和可扩展的语言模型评估。
阅读更多
本文介绍了 Chameleon,这是一个基于早期融合的混合模态模型系列,能够理解和生成任意顺序的图像和文本。该模型在视觉问答、图像描述、文本生成、图像生成和长格式混合模态生成等一系列任务上进行了评估,表现出广泛的通用能力。Chameleon 在图像描述任务中表现出色,在纯文本任务中超越了 Llama-2,同时与 Mixtral 8x7B 和 Gemini-Pro 等模型相比具有竞争力,并在单个模型中实现了图像生成。
阅读更多
大型语言模型在实际应用部署中,面临着巨大的内存消耗瓶颈,其中,Transformer架构中注意力机制的键值(KV)缓存消耗了大量内存。本文提出一种新型层压缩KV缓存方法,仅计算和缓存少量层的KV,显著节省内存消耗并提升推理吞吐量。实验证明,该方法在大型语言模型上实现了高达26倍的吞吐量提升,并在语言建模和下游任务中取得了具有竞争力的性能。
阅读更多
这篇文章讨论了数学家(包括格罗滕迪克)如何使用“等式”的概念,以及在试图将数学形式化时会产生什么影响。文章挑战了一些关于等式的看似合理的口号。
阅读更多
本文从进化角度探讨了人工智能是否能够实现意识,并以人脑的进化及其与意识的关系为参考模型。研究指出,人脑的一些结构和功能特性对于实现人类复杂的意识体验至关重要,而目前的人工智能研究在试图开发具有意识处理能力的系统时,应考虑到这些特性。尽管人工智能在模拟人类意识方面存在内在(结构和架构)和外在(与当前科学技术水平相关)的局限性,但从人脑中汲取灵感,研究那些使意识处理成为可能或调节意识处理的特性,可能是一个有希望的策略。
阅读更多
这篇论文探讨了人工智能(AI)的进化及其对通用人工智能(AGI)的影响。文章首先定义了AGI,并将其与当前的AI区分开来,强调了AGI在执行各种现实世界任务方面的效率和效能,可与人类智能相媲美。论文进一步探讨了实现AGI所需的能力框架,包括内部、接口和系统层面。此外,文章还讨论了必要的AGI校准技术,以协调更先进的功能和严格的约束条件,强调负责任地开发AGI的重要性。最后,论文概述了AGI在多个领域的现有挑战和潜在途径,旨在促进对AGI现状和未来发展方向的共同理解。
阅读更多
低秩自适应 (LoRA) 是一种广泛使用的参数高效微调方法,用于大型语言模型。LoRA 通过仅训练对选定权重矩阵的低秩扰动来节省内存。 本文比较了 LoRA 和完整微调在编程和数学两个目标域上的性能,考虑了指令微调(约 100K 提示-响应对)和持续预训练(约 10B 非结构化标记)数据机制。 结果表明,在大多数情况下,LoRA 的性能明显低于完整微调。 然而,LoRA 表现出一种理想的正则化形式:它可以更好地保持基础模型在目标域之外的任务上的性能。 LoRA 与权重衰减和 dropout 等常用技术相比,提供了更强的正则化;它还有助于保持更多样化的生成。 完整微调学习到的扰动秩比典型的 LoRA 配置高 10-100 倍,这可能解释了一些报告的差距。
阅读更多
这篇论文介绍了Sakuga-42M数据集,这是一个包含4200万个关键帧的大规模卡通动画数据集,涵盖了各种艺术风格、地区和年代,并包含了视频文本描述对、动画标签、内容分类等语义注释。研究表明,大型数据集对理解和生成自然视频的模型(如CLIP、SVD和Sora)在卡通动画方面效果不佳,这是因为卡通动画的偏差与自然视频的分布不同。Sakuga-42M数据集的提出旨在将大规模数据应用于卡通研究,并通过微调Video CLIP、Video Mamba和SVD等基础模型,在卡通相关任务上取得出色性能,从而促进未来卡通应用的泛化和鲁棒性。
阅读更多
本文调查了经历过GDPR实施的员工如何看待其实施所需的成本和努力。研究发现,参与者在被提示时能够认识到自己的权利,但对监管机构知之甚少。他们观察到工作场所数据实践的具体变化,并认可其中的权衡。他们感到欣慰的是,他们的个人数据与其雇主的客户数据一样受到谨慎处理。执行GDPR的人认为这对他们的公司和隐私都是积极的,并且不是一项毫无意义的官僚主义法规。这与关于监管的传统负面说法相矛盾。
阅读更多
本文介绍了一种名为分层记忆Transformer(HMT)的新型框架,该框架通过模仿人类记忆行为来增强模型的长期文本处理能力。HMT利用记忆增强的段级递归,通过保留来自早期输入标记段的标记、沿着序列传递记忆嵌入以及从历史中回忆相关信息来组织记忆层次结构。在通用语言建模和问答任务上的评估表明,HMT 稳步提高了上下文受限模型和长文本模型的长期文本处理能力。
阅读更多
本文提出了一种名为“特殊字符攻击”(SCA) 的新型攻击方法,旨在从大型语言模型(LLMs)中提取训练数据。研究发现,LLMs 容易记住训练数据,而某些特殊字符或其与英文字母的组合可以作为更强的记忆触发器,导致数据泄露。SCA 利用 LLM 训练数据中大量存在的特殊字符(如 JSON 文件的结构符号、电子邮件和在线帖子中的 @、# 等),通过诱导模型回忆这些特殊字符与原始文本之间的共现关系,从而泄露训练数据。实验结果表明,SCA 攻击效果显著,可以泄露代码库、网页、个人身份信息等各种训练数据,甚至导致模型生成不停顿的输出。
阅读更多
MOMENT是一系列开源基础模型,用于通用时间序列分析。该模型解决了大型时间序列数据预训练的挑战,包括缺乏大型公共时间序列库、不同时间序列特征导致多数据集训练困难,以及缺乏评估这些模型的实验基准。为了解决这些问题,研究人员编译了一个大型且多样化的公共时间序列集合,称为时间序列Pile,并系统地解决了时间序列特有的挑战,以实现大规模多数据集预训练。此外,他们还设计了一个基准,用于在有限监督设置下评估不同任务和数据集上的时间序列基础模型。实验结果证明了预训练模型在最少数据和特定任务微调下的有效性。
阅读更多
本文探讨了将抽象解释作为一种编程语言的可能性。作者认为,高阶严格性分析的结果可以更广泛地用作格上高阶函数的不动点算子,从而为一大类抽象解释的直接实现提供了一种技术。此外,它可以被看作一种编程范式,并用于以循环风格编写程序。
阅读更多