搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

训练有素的 Transformer 是隐式推理器:通向泛化边缘的机械之旅 (arxiv.org)

本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”,即长时间训练以克服过拟合,来学习隐式推理。然而,不同推理类型的泛化水平有所不同。分析表明,“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现,GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳,而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。

利用基于Wi-Fi的定位系统监控大众 (arxiv.org)

本文揭露了苹果公司Wi-Fi定位系统(WPS)存在安全漏洞,攻击者可利用该漏洞获取全球范围内Wi-Fi接入点的地理位置信息,从而对用户隐私构成威胁。研究人员通过分析发现,攻击者可在短短几天内收集到超过20亿个Wi-Fi接入点的精确位置数据,并通过追踪移动设备的Wi-Fi连接,监控设备的活动轨迹,例如进出战区、自然灾害区域以及个人行踪等。

火星快车HRSC观测揭示火卫一的光度特性 (arxiv.org)

该研究利用火星快车任务的观测数据分析了火卫一的光度特性,旨在为火星卫星探测任务提供支持。研究人员分析了火星快车上的高分辨率立体相机(HRSC)和超分辨率相机(SRC)在2004年至2022年期间拍摄的火卫一图像,并使用Hapke模型对整个卫星和局部区域进行了光度分析。研究发现,火卫一表面整体较暗,几何反照率为6.8%,并呈现出强烈的冲日效应。

从实践中汲取的关于语言模型可重复性评估的经验教训 (arxiv.org)

这篇论文探讨了语言模型评估中的挑战,并提供了解决方案和最佳实践。作者指出模型评估对设置的敏感性、方法比较的难度以及可重复性和透明性的缺乏是主要挑战。他们提出了语言模型评估工具包(lm-eval),这是一个开源库,用于独立、可复制和可扩展的语言模型评估。

热力学自然梯度下降 (arxiv.org)

文章介绍了一种名为“热力学自然梯度下降”的新型数字-模拟混合算法,用于训练神经网络。该算法利用模拟系统的热力学特性,在特定参数范围内等效于自然梯度下降,但避免了计算成本高昂的线性系统求解。研究人员通过数值模拟证明,在分类任务和语言模型微调任务中,这种方法优于最先进的数字一阶和二阶训练方法。

Chameleon:混合模态早期融合基础模型 (arxiv.org)

本文介绍了 Chameleon,这是一个基于早期融合的混合模态模型系列,能够理解和生成任意顺序的图像和文本。该模型在视觉问答、图像描述、文本生成、图像生成和长格式混合模态生成等一系列任务上进行了评估,表现出广泛的通用能力。Chameleon 在图像描述任务中表现出色,在纯文本任务中超越了 Llama-2,同时与 Mixtral 8x7B 和 Gemini-Pro 等模型相比具有竞争力,并在单个模型中实现了图像生成。

用于高效推理大型语言模型的层压缩KV缓存 (arxiv.org)

大型语言模型在实际应用部署中,面临着巨大的内存消耗瓶颈,其中,Transformer架构中注意力机制的键值(KV)缓存消耗了大量内存。本文提出一种新型层压缩KV缓存方法,仅计算和缓存少量层的KV,显著节省内存消耗并提升推理吞吐量。实验证明,该方法在大型语言模型上实现了高达26倍的吞吐量提升,并在语言建模和下游任务中取得了具有竞争力的性能。

格罗滕迪克对等式的使用 (arxiv.org)

这篇文章讨论了数学家(包括格罗滕迪克)如何使用“等式”的概念,以及在试图将数学形式化时会产生什么影响。文章挑战了一些关于等式的看似合理的口号。

算法设计教学:文献综述 (arxiv.org)

这篇文献综述回顾了计算机科学教育领域关于算法设计教学的研究。研究发现,尽管算法设计是计算机科学本科课程中的一项重要技能,但针对其教学法的研究却很少。作者通过对ACM数据库的检索,仅发现了94篇符合条件的论文,这表明在算法设计教学方面还有很多未解之谜。该综述还强调了采用严格研究方法的必要性,并指出现有文献大多集中在将已有的教学实践(如主动学习和自动评估)应用于算法课堂。

人工智能能否实现意识?来自人脑的启示 (arxiv.org)

本文从进化角度探讨了人工智能是否能够实现意识,并以人脑的进化及其与意识的关系为参考模型。研究指出,人脑的一些结构和功能特性对于实现人类复杂的意识体验至关重要,而目前的人工智能研究在试图开发具有意识处理能力的系统时,应考虑到这些特性。尽管人工智能在模拟人类意识方面存在内在(结构和架构)和外在(与当前科学技术水平相关)的局限性,但从人脑中汲取灵感,研究那些使意识处理成为可能或调节意识处理的特性,可能是一个有希望的策略。

我们离通用人工智能还有多远? (arxiv.org)

这篇论文探讨了人工智能(AI)的进化及其对通用人工智能(AGI)的影响。文章首先定义了AGI,并将其与当前的AI区分开来,强调了AGI在执行各种现实世界任务方面的效率和效能,可与人类智能相媲美。论文进一步探讨了实现AGI所需的能力框架,包括内部、接口和系统层面。此外,文章还讨论了必要的AGI校准技术,以协调更先进的功能和严格的约束条件,强调负责任地开发AGI的重要性。最后,论文概述了AGI在多个领域的现有挑战和潜在途径,旨在促进对AGI现状和未来发展方向的共同理解。

LoRA 学习更少,遗忘也更少 (arxiv.org)

低秩自适应 (LoRA) 是一种广泛使用的参数高效微调方法,用于大型语言模型。LoRA 通过仅训练对选定权重矩阵的低秩扰动来节省内存。 本文比较了 LoRA 和完整微调在编程和数学两个目标域上的性能,考虑了指令微调(约 100K 提示-响应对)和持续预训练(约 10B 非结构化标记)数据机制。 结果表明,在大多数情况下,LoRA 的性能明显低于完整微调。 然而,LoRA 表现出一种理想的正则化形式:它可以更好地保持基础模型在目标域之外的任务上的性能。 LoRA 与权重衰减和 dropout 等常用技术相比,提供了更强的正则化;它还有助于保持更多样化的生成。 完整微调学习到的扰动秩比典型的 LoRA 配置高 10-100 倍,这可能解释了一些报告的差距。

Sakuga-42M数据集:扩大卡通研究规模 (arxiv.org)

这篇论文介绍了Sakuga-42M数据集,这是一个包含4200万个关键帧的大规模卡通动画数据集,涵盖了各种艺术风格、地区和年代,并包含了视频文本描述对、动画标签、内容分类等语义注释。研究表明,大型数据集对理解和生成自然视频的模型(如CLIP、SVD和Sora)在卡通动画方面效果不佳,这是因为卡通动画的偏差与自然视频的分布不同。Sakuga-42M数据集的提出旨在将大规模数据应用于卡通研究,并通过微调Video CLIP、Video Mamba和SVD等基础模型,在卡通相关任务上取得出色性能,从而促进未来卡通应用的泛化和鲁棒性。

GDPR:它值得吗?经历过其实施的员工的看法 (arxiv.org)

本文调查了经历过GDPR实施的员工如何看待其实施所需的成本和努力。研究发现,参与者在被提示时能够认识到自己的权利,但对监管机构知之甚少。他们观察到工作场所数据实践的具体变化,并认可其中的权衡。他们感到欣慰的是,他们的个人数据与其雇主的客户数据一样受到谨慎处理。执行GDPR的人认为这对他们的公司和隐私都是积极的,并且不是一项毫无意义的官僚主义法规。这与关于监管的传统负面说法相矛盾。

HMT:用于长文本处理的分层记忆Transformer (arxiv.org)

本文介绍了一种名为分层记忆Transformer(HMT)的新型框架,该框架通过模仿人类记忆行为来增强模型的长期文本处理能力。HMT利用记忆增强的段级递归,通过保留来自早期输入标记段的标记、沿着序列传递记忆嵌入以及从历史中回忆相关信息来组织记忆层次结构。在通用语言建模和问答任务上的评估表明,HMT 稳步提高了上下文受限模型和长文本模型的长期文本处理能力。

特殊字符攻击:从大型语言模型中可扩展地提取训练数据 (arxiv.org)

本文提出了一种名为“特殊字符攻击”(SCA) 的新型攻击方法,旨在从大型语言模型(LLMs)中提取训练数据。研究发现,LLMs 容易记住训练数据,而某些特殊字符或其与英文字母的组合可以作为更强的记忆触发器,导致数据泄露。SCA 利用 LLM 训练数据中大量存在的特殊字符(如 JSON 文件的结构符号、电子邮件和在线帖子中的 @、# 等),通过诱导模型回忆这些特殊字符与原始文本之间的共现关系,从而泄露训练数据。实验结果表明,SCA 攻击效果显著,可以泄露代码库、网页、个人身份信息等各种训练数据,甚至导致模型生成不停顿的输出。

MOMENT: 开源时间序列基础模型系列 (arxiv.org)

MOMENT是一系列开源基础模型,用于通用时间序列分析。该模型解决了大型时间序列数据预训练的挑战,包括缺乏大型公共时间序列库、不同时间序列特征导致多数据集训练困难,以及缺乏评估这些模型的实验基准。为了解决这些问题,研究人员编译了一个大型且多样化的公共时间序列集合,称为时间序列Pile,并系统地解决了时间序列特有的挑战,以实现大规模多数据集预训练。此外,他们还设计了一个基准,用于在有限监督设置下评估不同任务和数据集上的时间序列基础模型。实验结果证明了预训练模型在最少数据和特定任务微调下的有效性。

抽象解释作为一种编程语言 (arxiv.org)

本文探讨了将抽象解释作为一种编程语言的可能性。作者认为,高阶严格性分析的结果可以更广泛地用作格上高阶函数的不动点算子,从而为一大类抽象解释的直接实现提供了一种技术。此外,它可以被看作一种编程范式,并用于以循环风格编写程序。

高斯蓝噪声 (arxiv.org)

这篇文章介绍了一种使用高斯核优化框架生成具有蓝噪声频谱的点分布的方法。研究表明,通过优化参数的合理选择,该方法可以获得前所未有的质量,可证明地超越了由最佳传输 (BNOT) 方法获得的当前最优结果。此外,文章还展示了该算法可以平滑且可行地扩展到高维,同时保持相同的质量,从而实现了前所未有的高质量高维蓝噪声集。最后,文章还展示了对自适应采样的扩展。

柏拉图式表征假说 (arxiv.org)

这篇论文论证了人工智能模型,特别是深度网络中的表征正在趋于一致。作者首先概述了文献中关于趋同的许多例子:随着时间的推移,跨越多个领域,不同神经网络表示数据的方式正变得越来越一致。接下来,作者论证了跨数据模态的趋同:随着视觉模型和语言模型变得越来越大,它们测量数据点之间距离的方式也越来越相似。作者假设这种趋同正在走向一种共享的现实统计模型,类似于柏拉图的理想现实概念。作者将这种表征称为柏拉图式表征,并讨论了导致这种表征的几种可能的压力。最后,作者讨论了这些趋势的影响、局限性以及分析的反例。

太阳能电池板作为技术特征的可探测性 (arxiv.org)

本文评估了类地系外行星上硅制太阳能电池板作为一种潜在技术特征的可探测性。硅基光伏电池在紫外-可见光和近红外范围内具有高反射率,这属于像宜居世界天文台(HWO)这样的太空旗舰任务概念的波长范围。假设仅使用太阳能来提供2022年人类的能源需求,土地覆盖率约为2.4%,并根据各种增长率情景预测未来的能源需求,我们用一个8米HWO式望远镜评估了可探测性。假设是最有利的观测方向,并专注于紫外-可见光(0.34 - 0.52 微米)中的强吸收边缘,我们发现即使太阳能电池板覆盖了未来地球约23%的土地覆盖面积,也需要数百小时的观测时间才能在10秒差距处围绕类太阳恒星运行的类地行星上达到5的信噪比。

利用大型语言模型实现准确高效的文档分析 (arxiv.org)

这篇论文介绍了ZenDB,一个用于分析文档集合的系统。ZenDB利用大型语言模型和文档的语义结构来回答SQL查询。它可以高效地从模板化文档中提取语义层次结构,并使用一种新的查询引擎来利用这些结构进行准确且经济高效的查询执行。实验结果表明,与基于LLM的基线相比,ZenDB可以节省高达30%的成本,同时保持或提高准确性,并且在精度和召回率方面分别超过基于RAG的基线高达61%和80%。

自动检测大型语言模型中未经充分训练的词例 (arxiv.org)

本文介绍了一种自动检测大型语言模型(LLM)中未经充分训练的词例的方法。研究人员发现,词例生成和模型训练之间的脱节会导致某些输入(如SolidGoldMagikarp词例)引发意外行为。通过结合词例分析、基于模型权重的指标和提示技术,他们开发了有效的方法来自动检测这些有问题的词例。

基于层次相关性重构的生物启发式联合分布神经元允许多向神经网络 (arxiv.org)

这篇文章介绍了一种名为层次相关性重构(HCR)的生物启发式神经元模型,该模型允许多向神经网络的构建。与传统的单向值传播的人工神经网络不同,HCR神经元可以对整个联合分布进行建模,包括高阶矩。这种模型采用多项式基函数参数化联合分布,允许灵活且低成本的处理,包括非线性、直接模型估计和更新,并可通过标准反向传播或新的方法进行训练。

微调新知识上的 LLM 会助长幻觉吗? (arxiv.org)

微调后的大型语言模型在遇到从未接受过预训练的事实信息时,可能会出现虚构事实性错误响应的行为。在本文中,我们研究了暴露于新知识对微调模型利用其已有知识能力的影响。为此,我们设计了一个受控设置,专注于闭卷问答,其中我们改变了引入新知识的微调示例的比例。我们证明,大型语言模型难以通过微调获取新的事实知识,因为引入新知识的微调示例的学习速度明显低于与模型知识一致的示例。然而,我们还发现,随着包含新知识的示例最终被学习,它们会线性增加模型产生幻觉的倾向。综上所述,我们的研究结果强调了通过微调引入新事实知识的风险,并支持了大型语言模型主要通过预训练获取事实知识的观点,而微调教会了它们更有效地利用这些知识。

Co-evolution of hyperparameters for variational quantum algorithms (arxiv.org)

本文提出了一种基于贝叶斯优化和强化学习相结合的新型超参数协同进化算法,用于优化量子模拟电路上的变分量子算法(VQAs)。该算法利用贝叶斯优化探索超参数空间,并利用强化学习评估不同超参数组合的质量,指导后续的搜索过程。实验结果表明,该算法在优化不同目标函数下的VQAs时,与现有技术相比具有显着优势,它可以有效地提高VQAs的性能。该算法的 opensource 实现将在 https://github.com/ZhengrongYuan/CoevoVE 上发布。

玩家驱动型涌现在 LLM 驱动的游戏叙事中的应用 (arxiv.org)

本文探讨了大型语言模型(LLM)如何与玩家互动,产生涌现行为,使玩家能够参与游戏叙事的演变。研究人员使用 GPT-4 驱动一个文字冒险游戏,玩家在固定的叙事前提下自由地与非玩家角色互动。结果表明,玩家通过与LLM的非确定性行为互动,能够发现有趣的、原本不存在于叙事中的新节点,这些节点具有趣味性和吸引力。

没有指数级数据就没有“零样本”:预训练概念频率决定多模态模型性能 (arxiv.org)

这篇论文研究了多模态模型在“零样本”情况下泛化能力的局限性。研究发现,模型在“零样本”评估中的性能与其预训练数据集中包含的目标概念频率密切相关。为了提高下游任务的性能,模型需要指数级增长的训练数据,这表明“零样本”泛化能力需要大规模训练数据。研究者还创建了一个名为“Let it Wag!”的基准测试集,用于评估模型在长尾数据上的性能。

xLSTM:扩展的长短期记忆网络 (arxiv.org)

本文介绍了扩展的长短期记忆网络(xLSTM),它对传统的LSTM进行了改进,包括采用指数门控和修改的内存结构。xLSTM包含两种变体:sLSTM采用标量内存和更新,mLSTM采用矩阵内存和协方差更新规则,可完全并行化。实验结果表明,xLSTM在性能和扩展性方面优于最先进的Transformer和状态空间模型。

基于 Graph Diffusion Network 的高阶关系学习 (arxiv.org)

这篇论文提出了一种基于图扩散网络的高阶关系学习方法。该方法利用图扩散机制在图结构数据中传播高阶关系信息,并结合图注意力机制对高阶关系信息进行选择性和聚合。实验结果表明,该方法在多个图相关任务上取得了良好的性能。

1 2 3 5