LLaVA-o1:让视觉语言模型逐步推理

2024-11-18

LLaVA-o1是一种新型视觉语言模型,旨在进行自主多阶段推理,包括总结、视觉解释、逻辑推理和结论生成等步骤。与思维链提示不同,LLaVA-o1独立地进行这些阶段。通过使用10万个训练样本和一种简单的推理时间缩放方法,LLaVA-o1在各种多模态推理基准测试中,不仅比其基础模型提高了8.9%,而且还超过了更大的模型,甚至包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等闭源模型。

阅读更多
8

基于基础模型Agent的可观测性AgentOps分类法

2024-11-18

大型语言模型(LLM)质量的不断提高,推动了各种下游任务的发展,导致对AI自动化的需求增加,并激发了人们对开发基于基础模型(FM)的自主Agent的兴趣。随着AI Agent系统处理更复杂的任务并不断发展,它们涉及更广泛的利益相关者,包括Agent用户、Agent系统开发人员和部署人员以及AI模型开发人员。为了构建可靠的AI Agent和LLM应用程序,有必要转向设计AgentOps平台,以确保整个开发到生产生命周期的可观测性和可追溯性。本文综述了AgentOps的必要特性,并提出了Agent生产生命周期中可观测性数据/可追溯性工件的全面概述,强调了可观测性/可追溯性在增强自主Agent系统可靠性方面的关键作用。

阅读更多
9
未分类 AgentOps

是时候在数据中心替换 TCP 了

2024-11-18

本文认为TCP协议不适合现代数据中心,其从面向流到有序数据包交付等核心要素都存在问题,这些问题根深蒂固且相互关联,无法修复。作者提出引入新的传输协议来充分利用现代网络的性能潜力,并以Homa为例,展示了创建一个避免TCP所有问题的传输协议的可能性。尽管Homa与TCP的API不兼容,但通过将其与RPC框架集成,Homa仍有望得到广泛应用。

阅读更多
8
未分类

SmoothLLM:防御大型语言模型免受越狱攻击

2024-11-17

SmoothLLM 是一种旨在防御大型语言模型(LLM)免受越狱攻击的新算法。该算法基于对抗性生成的提示对字符级更改敏感的发现,通过随机扰动给定输入提示的多个副本,然后聚合相应的预测来检测对抗性输入。SmoothLLM 在各种流行的 LLM 中对 GCG、PAIR、RandomSearch 和 AmpleGCG 越狱攻击的防御方面均达到最先进水平,也能够抵抗自适应 GCG 攻击。虽然 SmoothLLM 在鲁棒性和标称性能之间存在小的但不可忽略的权衡,但它与任何 LLM 兼容。

阅读更多
10

人工智能赋能量子计算

2024-11-16

这篇论文综述了人工智能(AI)技术在量子计算(QC)领域的应用。由于量子计算的复杂性和高维度数学特性,AI的数据驱动学习能力使其成为解决量子计算扩展挑战的关键。文章探讨了AI如何改进量子计算的硬件和软件,涵盖了从设备设计到应用的各个方面,并展望了AI在量子计算领域的未来机遇和挑战。

阅读更多
10
未分类 AI赋能

GPTree:基于大型语言模型的决策树实现可解释决策

2024-11-14

GPTree 框架结合了决策树的可解释性和大型语言模型的推理能力,无需特征工程和提示链,仅需特定任务提示即可利用树形结构动态拆分样本。研究引入专家反馈机制,允许人工干预以改进决策路径。在识别早期“独角兽”初创企业方面,GPTree 的准确率达到 7.8%,优于少样本学习的 gpt-4o 以及最佳人类决策者(3.1% 至 5.6%)。

阅读更多
16
未分类 决策树

为什么现在找工作这么难?“幽灵职位”现象研究

2024-11-14

本文研究了“幽灵招聘”或“幽灵职位”现象,即雇主发布招聘广告但无意填补空缺。研究利用Glassdoor数据和LLM-BERT技术发现,高达21%的招聘广告可能是幽灵职位,尤其在专业化行业和大公司中更为普遍。这可能是由于发布额外招聘广告和维护人才库的边际成本较低。剔除年度趋势后发现,“幽灵职位”可以解释过去十五年贝弗里奇曲线出现的脱节现象。研究结果表明,政策制定者应该意识到这种做法,因为它会导致严重的求职疲劳并扭曲市场信号。

阅读更多
18

BERT模型也能进行生成式上下文学习

2024-11-14

本文研究发现,通常与因果语言模型(如GPT)相关的上下文学习能力,也出现在掩码语言模型(如DeBERTa)中。通过简单的推理技术,无需额外的训练或架构更改,即可使DeBERTa执行生成任务。评估结果显示,掩码和因果语言模型表现不同,它们在不同任务类别上各有优劣。这些互补的优势表明,该领域对因果模型在上下文学习中的关注可能存在局限性,两种架构都能发展这种能力,但各有优势,这预示着结合两种目标优势的混合方法具有发展前景。

阅读更多
16
未分类 BERT

OpenCoder:顶级代码大型语言模型的开源秘籍

2024-11-09

OpenCoder是一个开源的顶级代码大型语言模型,性能媲美领先模型。与以往只发布模型权重和推理代码不同,OpenCoder还开源了可复现的训练数据、完整的数据处理流程、实验结果和详细的训练协议。OpenCoder的关键要素包括:代码优化启发式规则、代码相关文本语料库的召回以及高质量的合成数据。OpenCoder旨在为代码AI研究提供一个开放的平台,加速研究进展。

阅读更多
14
未分类

LoRA 与全量微调:等效的错觉

2024-11-08

本文研究了不同的微调方法如何改变预训练的大型语言模型,特别是低秩自适应 (LoRA) 和全量微调之间的差异。研究发现,尽管 LoRA 在许多任务上可以达到与全量微调相似的性能,但它们的学习到的解并不等效。LoRA 训练的权重矩阵中存在新的、高秩的奇异向量(称为“入侵维度”),而全量微调中不存在。这些“入侵维度”导致 LoRA 模型在预训练分布上的性能下降,并且在顺序适应多个任务时的鲁棒性较差。更高秩、秩稳定的 LoRA 模型更接近全量微调,即使在相同任务上与低秩 LoRA 模型性能相当。研究表明 LoRA 和全量微调访问了参数空间的不同部分,并探讨了“入侵维度”出现的原因、负面影响以及如何将其最小化。

阅读更多
14
未分类

Roaring:一种始终更快、更小的压缩位图

2024-11-08

本文介绍了一种名为Roaring的混合压缩位图索引技术,该技术结合了未压缩位图、压缩数组和行程编码(RLE)压缩段。Roaring在数据库和搜索引擎中表现优异,速度比传统的基于RLE的替代方案(WAH、Concise、EWAH)快几倍(甚至两个数量级),同时压缩效果更好。该技术已被Apache Lucene、Apache Spark、Apache Kylin和Druid等生产平台采用。

阅读更多
17

评估生成模型中隐含的世界模型

2024-11-07

本文研究了大型语言模型是否隐含地学习了世界模型。作者针对底层现实由确定性有限自动机控制的情况,提出了新的评估指标,并将其应用于游戏、逻辑谜题和导航三个领域。结果表明,尽管生成模型在现有诊断中表现良好,但新的指标揭示了其世界模型远不如表面看起来那么连贯,这种不连贯性会导致模型在处理类似任务时出现严重错误。

阅读更多
15
未分类 评估指标

利用自制射电望远镜观测银河系中性氢结构光谱和运动学

2024-11-05

本文介绍了一种自制低成本射电望远镜的方法,用于探测21厘米谱线(1420.405 MHz),并确定银河系中性氢的分布和运动学特征。通过测量21厘米谱线的多普勒频移,可以确定氢云相对于地球的速度,进而识别这些云的运动、它们在银河系旋臂中的位置以及它们在银河系整体旋转动力学中的作用。该装置设计简单易于操作,使用了1米抛物面天线、H1-LNA、SDR和树莓派等设备,方便业余爱好者开展类似项目。文章还概述了检测氢谱线和生成速度剖面所需的数据处理过程,并探讨了在城市环境中,如何运用频谱滤波和仪器屏蔽等射频干扰抑制技术来提高观测清晰度。

阅读更多
16

你的大型语言模型真的会遗忘吗?一种简单的方法来恢复被遗忘的知识

2024-11-04

大型语言模型(LLM)虽然功能强大,但也可能学习到不良内容。机器遗忘技术可以移除这些内容,但本文指出,现有的遗忘方法可能只是隐藏了知识,而非真正遗忘。研究发现,对经过遗忘处理的模型应用量化技术可以恢复“被遗忘”的信息,例如4比特量化后,可以恢复高达83%的遗忘知识。文章对此现象进行了理论解释,并提出了一种抗量化遗忘策略。

阅读更多
19
未分类 机器遗忘

RingGesture:基于深度学习单词预测框架的环状空中手势输入系统

2024-11-03

RingGesture是一种基于环状空中手势的输入系统,旨在为轻量级AR眼镜提供高效的文本输入方案。该系统利用戒指上的电极标记手势轨迹的起止,并结合IMU传感器进行手部追踪,实现类似VR头显中光线投射的空中手势输入体验。为了提高准确性和输入速度,RingGesture采用了一种名为Score Fusion的深度学习单词预测框架,该框架融合了单词-手势解码模型、空间拼写纠正模型和上下文语言模型的得分,以预测最可能的单词。实验证明,RingGesture的平均输入速度为每分钟27.3个单词,峰值性能达到47.9个单词,其Score Fusion框架相比传统方法,未校正字符错误率降低了28.2%,输入速度提高了55.2%。

阅读更多
18
未分类 手势输入

SPANN:高效的十亿级近似最近邻搜索

2024-11-03

SPANN是一个高效的内存-磁盘混合近似最近邻搜索系统,它采用倒排索引方法,将posting lists的中心点存储在内存中,而将大型posting lists存储在磁盘中。SPANN通过减少磁盘访问次数和检索高质量的posting lists来保证磁盘访问效率和高召回率。在索引构建阶段,它采用分层平衡聚类算法来平衡posting lists的长度,并通过添加相应聚类中点的闭包来扩充posting lists。在搜索阶段,它使用query-aware方案动态修剪不必要的posting lists的访问。实验结果表明,SPANN比当前最先进的ANNS解决方案DiskANN快2倍,在三个十亿级数据集上达到相同的召回率90%,内存成本相同。

阅读更多
18

TokenFormer:用模型参数标记化重塑Transformer缩放

2024-11-01

TokenFormer 是一种新型可缩放架构,利用注意力机制处理输入标记和模型参数之间的交互,从而增强架构灵活性。通过将模型参数视为标记,它用标记-参数注意力层取代了 Transformer 中的所有线性投影,其中输入标记充当查询,模型参数充当键和值。这种方法允许模型通过递增添加新的键值参数对,从 1.24 亿个参数扩展到 14 亿个参数,在大大减少训练成本的同时,实现与从头训练的 Transformer 相当的性能。

阅读更多
18
未分类 模型缩放

Crux:一个针对Rust和其他语言的精确验证器

2024-11-01

Crux是一个跨语言验证工具,适用于Rust和C/LLVM,尤其针对人类难以确保正确性的复杂代码段,例如加密模块和序列化/反序列化程序对。Crux建立在成熟的SAW-Cryptol工具链的框架之上,但它提供了一个接口,其中的证明被表述为符号单元测试。Crux设计用于生产环境,并且已经在工业中得到应用。本文重点介绍了Crux-MIR,这是一个针对Rust的验证工具,它提供了一个精确的Rust安全和非安全代码模型,可以用于检查Rust代码的内联属性,以及与Cryptol或hacspec方言编写的可执行规范的扩展等价性。Crux-MIR支持组合推理,这对于扩展到中等复杂度的证明是必要的。该工具通过验证Ring库中SHA1和SHA2的实现与现有功能规范的符合性进行了演示。

阅读更多
22
未分类 Crux

深思熟虑反而有害?思维链方法在某些任务中降低模型性能

2024-10-31

本文研究了思维链(CoT)提示方法在哪些情况下会降低大型语言和多模态模型的性能。研究发现,在某些人类思考会降低表现的任务中,例如隐式统计学习、视觉识别和包含例外模式的分类任务,CoT也会降低模型性能。实验结果表明,多种先进模型在使用推理时,性能显著下降。相比之下,在一些虽然人类思考会降低表现,但不符合模型约束条件的任务中,CoT则不会降低模型性能。研究指出,虽然模型的认知过程与人类不完全相同,但考虑人类思考的负面后果可以帮助识别CoT的负面影响,为理解提示选择和推理的影响提供了新工具。

阅读更多
16
未分类 思维链

将Web应用程序表示为知识图谱

2024-10-30

传统的网络应用程序爬取和解析方法主要依赖于从初始页面提取超链接并递归地跟踪链接资源,构建以网页非结构化数据为节点、页面转换关系为边的图。然而,这些技术难以捕捉现代Web应用程序固有的动态和交互行为。本文提出了一种新的方法,将每个节点建模为应用程序当前状态的结构化表示,边则反映用户发起的操作或状态转换。这种结构化表示能够更全面地理解Web应用程序的功能,为自动化测试和行为分析等下游任务提供有价值的见解。

阅读更多
20
未分类

大型语言模型知道的比它们展示的更多:关于大型语言模型幻觉的内在表征

2024-10-30

大型语言模型(LLM)经常会产生错误,包括事实不准确、偏差和推理失败,这些统称为“幻觉”。本文研究发现,LLM的内部状态编码了关于其输出真实性的信息,而且这些信息比以前认为的要多得多。研究首先发现,真实性信息集中在特定的词例中,利用这一特性可以显著提高错误检测性能。然而,这种错误检测器无法跨数据集泛化,这意味着真实性编码并非普遍的,而是多方面的。此外,内部表征还可以用于预测模型可能出现的错误类型,从而有助于制定有针对性的缓解策略。最后,研究揭示了LLM内部编码和外部行为之间的差异:它们可能编码了正确答案,但却持续生成错误答案。

阅读更多
20
未分类 错误检测

数值精度如何影响大型语言模型的数学推理能力

2024-10-22

这篇论文研究了数值精度对基于Transformer的大型语言模型(LLM)数学推理能力的影响。研究发现,低数值精度的Transformer模型在处理迭代加法和整数乘法等算术任务时表现不佳,除非模型规模相对于输入长度呈超多项式增长。相比之下,具有标准数值精度的Transformer模型可以用小得多的模型规模有效地处理这些任务。

阅读更多
20
未分类 数值精度

大型语言模型微调终极指南:从基础到突破

2024-10-22

这篇报告全面概述了大型语言模型(LLM)的微调技术,整合了理论见解和实际应用,涵盖了从传统自然语言处理模型到LLM在人工智能中关键作用的历史演变,比较了不同微调方法的优缺点,并介绍了一个结构化的七阶段LLM微调流程。报告重点阐述了数据准备、模型初始化、超参数调整和模型部署等关键步骤,并深入探讨了参数高效方法、内存微调、多专家混合、代理混合等前沿技术,以及验证框架、部署后监控和推理优化等实用建议。

阅读更多
19
未分类

机器学习在计算等离子体物理和降阶等离子体建模中的应用:展望

2024-10-21

这篇论文概述了机器学习在计算等离子体物理学中的应用,探讨了机器学习算法如何增强流体流动建模并将其应用于等离子体物理领域。文章还展望了机器学习在等离子体建模中的未来发展方向,以及实现其全部潜力的挑战,例如需要成本效益高的模拟工具来生成大量数据。

阅读更多
24

QUIC 在高速互联网环境下速度不够快

2024-10-20

这篇论文系统地评估了 QUIC 协议在高速网络环境下的性能。研究发现,相比于 TCP+TLS+HTTP/2,UDP+QUIC+HTTP/3 在高速互联网环境下数据传输速率降低了 45.2%。QUIC 和 HTTP/2 之间的性能差距随着带宽的增加而扩大。导致这个问题的根本原因是接收端过高的处理开销,特别是过多的数据包和 QUIC 的用户空间 ACK。

阅读更多
23
未分类

随机森林为何有效?将其理解为自正则化自适应平滑器

2024-10-20

这篇论文探讨了随机森林为何如此有效。作者认为,将随机森林理解为自适应、自正则化的平滑器是关键。论文指出,随机森林的预测结果比单个决策树更加平滑,并且能根据测试和训练数据的差异调整平滑程度。此外,论文还反驳了普遍认为的随机森林优于单个决策树仅仅是由于方差降低的观点,认为随机森林的平滑效应可以通过减少预测方差、提高学习函数质量以及丰富假设空间来提升性能。

阅读更多
18
未分类 随机森林 平滑

LLMD:一种用于解读纵向病历的大语言模型

2024-10-18

LLMD是一种新的大语言模型,旨在基于患者的病历分析其病史。与仅接受知识训练的模型不同,LLMD接受了大量跨时间和医疗机构收集的病历、任务和标签的训练,从而能够更准确地了解患者的健康状况。LLMD在医学知识基准测试中表现出色,并在实际生产任务中显著优于其他模型,包括更强大的通用模型和特定领域模型。

阅读更多
22
未分类 医疗病历

Meissonic:复兴掩码生成式Transformer,实现高效的高分辨率文本到图像合成

2024-10-14

Meissonic是一种新的文本到图像合成模型,它改进了非自回归掩码图像建模 (MIM),实现了与SDXL等顶级扩散模型相媲美的性能。Meissonic采用了一系列架构创新、先进的位置编码策略和优化的采样条件,显著提升了MIM的性能和效率,并通过高质量的训练数据、结合人类偏好分数的微调以及特征压缩层,进一步增强了图像的保真度和分辨率。

阅读更多
27

DeepSeek-Prover:通过大规模合成数据推进LLM中的定理证明

2024-10-14

为了解决大型语言模型(LLM)在形式定理证明方面训练数据缺乏的问题,DeepSeek-Prover方法利用高中和本科水平的数学竞赛问题生成大量的Lean 4证明数据。该方法将自然语言问题转化为形式语句,过滤掉低质量语句,并生成证明来创建合成数据。在包含800万个带有证明的形式语句的合成数据集上微调DeepSeekMath 7B模型后,该模型在Lean 4 miniF2F测试中实现了46.3%的完整证明生成准确率,优于基线GPT-4(23.0%)和树搜索强化学习方法(41.0%)。

阅读更多
30
未分类
2 4 5 6 7 8