这篇论文探讨了语言模型评估中的挑战,并提供了解决方案和最佳实践。作者指出模型评估对设置的敏感性、方法比较的难度以及可重复性和透明性的缺乏是主要挑战。他们提出了语言模型评估工具包(lm-eval),这是一个开源库,用于独立、可复制和可扩展的语言模型评估。
本文从进化角度探讨了人工智能是否能够实现意识,并以人脑的进化及其与意识的关系为参考模型。研究指出,人脑的一些结构和功能特性对于实现人类复杂的意识体验至关重要,而目前的人工智能研究在试图开发具有意识处理能力的系统时,应考虑到这些特性。尽管人工智能在模拟人类意识方面存在内在(结构和架构)和外在(与当前科学技术水平相关)的局限性,但从人脑中汲取灵感,研究那些使意识处理成为可能或调节意识处理的特性,可能是一个有希望的策略。
这篇论文探讨了人工智能(AI)的进化及其对通用人工智能(AGI)的影响。文章首先定义了AGI,并将其与当前的AI区分开来,强调了AGI在执行各种现实世界任务方面的效率和效能,可与人类智能相媲美。论文进一步探讨了实现AGI所需的能力框架,包括内部、接口和系统层面。此外,文章还讨论了必要的AGI校准技术,以协调更先进的功能和严格的约束条件,强调负责任地开发AGI的重要性。最后,论文概述了AGI在多个领域的现有挑战和潜在途径,旨在促进对AGI现状和未来发展方向的共同理解。
低秩自适应 (LoRA) 是一种广泛使用的参数高效微调方法,用于大型语言模型。LoRA 通过仅训练对选定权重矩阵的低秩扰动来节省内存。 本文比较了 LoRA 和完整微调在编程和数学两个目标域上的性能,考虑了指令微调(约 100K 提示-响应对)和持续预训练(约 10B 非结构化标记)数据机制。 结果表明,在大多数情况下,LoRA 的性能明显低于完整微调。 然而,LoRA 表现出一种理想的正则化形式:它可以更好地保持基础模型在目标域之外的任务上的性能。 LoRA 与权重衰减和 dropout 等常用技术相比,提供了更强的正则化;它还有助于保持更多样化的生成。 完整微调学习到的扰动秩比典型的 LoRA 配置高 10-100 倍,这可能解释了一些报告的差距。
这篇论文介绍了Sakuga-42M数据集,这是一个包含4200万个关键帧的大规模卡通动画数据集,涵盖了各种艺术风格、地区和年代,并包含了视频文本描述对、动画标签、内容分类等语义注释。研究表明,大型数据集对理解和生成自然视频的模型(如CLIP、SVD和Sora)在卡通动画方面效果不佳,这是因为卡通动画的偏差与自然视频的分布不同。Sakuga-42M数据集的提出旨在将大规模数据应用于卡通研究,并通过微调Video CLIP、Video Mamba和SVD等基础模型,在卡通相关任务上取得出色性能,从而促进未来卡通应用的泛化和鲁棒性。
本文调查了经历过GDPR实施的员工如何看待其实施所需的成本和努力。研究发现,参与者在被提示时能够认识到自己的权利,但对监管机构知之甚少。他们观察到工作场所数据实践的具体变化,并认可其中的权衡。他们感到欣慰的是,他们的个人数据与其雇主的客户数据一样受到谨慎处理。执行GDPR的人认为这对他们的公司和隐私都是积极的,并且不是一项毫无意义的官僚主义法规。这与关于监管的传统负面说法相矛盾。
本文介绍了一种名为分层记忆Transformer(HMT)的新型框架,该框架通过模仿人类记忆行为来增强模型的长期文本处理能力。HMT利用记忆增强的段级递归,通过保留来自早期输入标记段的标记、沿着序列传递记忆嵌入以及从历史中回忆相关信息来组织记忆层次结构。在通用语言建模和问答任务上的评估表明,HMT 稳步提高了上下文受限模型和长文本模型的长期文本处理能力。
本文提出了一种名为“特殊字符攻击”(SCA) 的新型攻击方法,旨在从大型语言模型(LLMs)中提取训练数据。研究发现,LLMs 容易记住训练数据,而某些特殊字符或其与英文字母的组合可以作为更强的记忆触发器,导致数据泄露。SCA 利用 LLM 训练数据中大量存在的特殊字符(如 JSON 文件的结构符号、电子邮件和在线帖子中的 @、# 等),通过诱导模型回忆这些特殊字符与原始文本之间的共现关系,从而泄露训练数据。实验结果表明,SCA 攻击效果显著,可以泄露代码库、网页、个人身份信息等各种训练数据,甚至导致模型生成不停顿的输出。
本文评估了类地系外行星上硅制太阳能电池板作为一种潜在技术特征的可探测性。硅基光伏电池在紫外-可见光和近红外范围内具有高反射率,这属于像宜居世界天文台(HWO)这样的太空旗舰任务概念的波长范围。假设仅使用太阳能来提供2022年人类的能源需求,土地覆盖率约为2.4%,并根据各种增长率情景预测未来的能源需求,我们用一个8米HWO式望远镜评估了可探测性。假设是最有利的观测方向,并专注于紫外-可见光(0.34 - 0.52 微米)中的强吸收边缘,我们发现即使太阳能电池板覆盖了未来地球约23%的土地覆盖面积,也需要数百小时的观测时间才能在10秒差距处围绕类太阳恒星运行的类地行星上达到5的信噪比。
这篇论文介绍了ZenDB,一个用于分析文档集合的系统。ZenDB利用大型语言模型和文档的语义结构来回答SQL查询。它可以高效地从模板化文档中提取语义层次结构,并使用一种新的查询引擎来利用这些结构进行准确且经济高效的查询执行。实验结果表明,与基于LLM的基线相比,ZenDB可以节省高达30%的成本,同时保持或提高准确性,并且在精度和召回率方面分别超过基于RAG的基线高达61%和80%。
微调后的大型语言模型在遇到从未接受过预训练的事实信息时,可能会出现虚构事实性错误响应的行为。在本文中,我们研究了暴露于新知识对微调模型利用其已有知识能力的影响。为此,我们设计了一个受控设置,专注于闭卷问答,其中我们改变了引入新知识的微调示例的比例。我们证明,大型语言模型难以通过微调获取新的事实知识,因为引入新知识的微调示例的学习速度明显低于与模型知识一致的示例。然而,我们还发现,随着包含新知识的示例最终被学习,它们会线性增加模型产生幻觉的倾向。综上所述,我们的研究结果强调了通过微调引入新事实知识的风险,并支持了大型语言模型主要通过预训练获取事实知识的观点,而微调教会了它们更有效地利用这些知识。
本文提出了一种基于贝叶斯优化和强化学习相结合的新型超参数协同进化算法,用于优化量子模拟电路上的变分量子算法(VQAs)。该算法利用贝叶斯优化探索超参数空间,并利用强化学习评估不同超参数组合的质量,指导后续的搜索过程。实验结果表明,该算法在优化不同目标函数下的VQAs时,与现有技术相比具有显着优势,它可以有效地提高VQAs的性能。该算法的 opensource 实现将在 https://github.com/ZhengrongYuan/CoevoVE 上发布。