搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

数值精度如何影响大型语言模型的数学推理能力 (arxiv.org)

这篇论文研究了数值精度对基于Transformer的大型语言模型(LLM)数学推理能力的影响。研究发现,低数值精度的Transformer模型在处理迭代加法和整数乘法等算术任务时表现不佳,除非模型规模相对于输入长度呈超多项式增长。相比之下,具有标准数值精度的Transformer模型可以用小得多的模型规模有效地处理这些任务。

大型语言模型微调终极指南:从基础到突破 (arxiv.org)

这篇报告全面概述了大型语言模型(LLM)的微调技术,整合了理论见解和实际应用,涵盖了从传统自然语言处理模型到LLM在人工智能中关键作用的历史演变,比较了不同微调方法的优缺点,并介绍了一个结构化的七阶段LLM微调流程。报告重点阐述了数据准备、模型初始化、超参数调整和模型部署等关键步骤,并深入探讨了参数高效方法、内存微调、多专家混合、代理混合等前沿技术,以及验证框架、部署后监控和推理优化等实用建议。

机器学习在计算等离子体物理和降阶等离子体建模中的应用:展望 (arxiv.org)

这篇论文概述了机器学习在计算等离子体物理学中的应用,探讨了机器学习算法如何增强流体流动建模并将其应用于等离子体物理领域。文章还展望了机器学习在等离子体建模中的未来发展方向,以及实现其全部潜力的挑战,例如需要成本效益高的模拟工具来生成大量数据。

QUIC 在高速互联网环境下速度不够快 (arxiv.org)

这篇论文系统地评估了 QUIC 协议在高速网络环境下的性能。研究发现,相比于 TCP+TLS+HTTP/2,UDP+QUIC+HTTP/3 在高速互联网环境下数据传输速率降低了 45.2%。QUIC 和 HTTP/2 之间的性能差距随着带宽的增加而扩大。导致这个问题的根本原因是接收端过高的处理开销,特别是过多的数据包和 QUIC 的用户空间 ACK。

随机森林为何有效?将其理解为自正则化自适应平滑器 (arxiv.org)

这篇论文探讨了随机森林为何如此有效。作者认为,将随机森林理解为自适应、自正则化的平滑器是关键。论文指出,随机森林的预测结果比单个决策树更加平滑,并且能根据测试和训练数据的差异调整平滑程度。此外,论文还反驳了普遍认为的随机森林优于单个决策树仅仅是由于方差降低的观点,认为随机森林的平滑效应可以通过减少预测方差、提高学习函数质量以及丰富假设空间来提升性能。

LLMD:一种用于解读纵向病历的大语言模型 (arxiv.org)

LLMD是一种新的大语言模型,旨在基于患者的病历分析其病史。与仅接受知识训练的模型不同,LLMD接受了大量跨时间和医疗机构收集的病历、任务和标签的训练,从而能够更准确地了解患者的健康状况。LLMD在医学知识基准测试中表现出色,并在实际生产任务中显著优于其他模型,包括更强大的通用模型和特定领域模型。

Skip Hash:一种基于软件事务内存的快速有序映射 (arxiv.org)

文章介绍了一种名为Skip Hash的新型有序映射数据结构,它结合了跳表和哈希映射的优点,并利用软件事务内存(STM)实现了快速、可线性化的范围查询,同时保证了并发插入和删除操作的高效性。实验结果表明,Skip Hash在性能上几乎优于所有现有方案,兼具高效性和简洁性。

Meissonic:复兴掩码生成式Transformer,实现高效的高分辨率文本到图像合成 (arxiv.org)

Meissonic是一种新的文本到图像合成模型,它改进了非自回归掩码图像建模 (MIM),实现了与SDXL等顶级扩散模型相媲美的性能。Meissonic采用了一系列架构创新、先进的位置编码策略和优化的采样条件,显著提升了MIM的性能和效率,并通过高质量的训练数据、结合人类偏好分数的微调以及特征压缩层,进一步增强了图像的保真度和分辨率。

DeepSeek-Prover:通过大规模合成数据推进LLM中的定理证明 (arxiv.org)

为了解决大型语言模型(LLM)在形式定理证明方面训练数据缺乏的问题,DeepSeek-Prover方法利用高中和本科水平的数学竞赛问题生成大量的Lean 4证明数据。该方法将自然语言问题转化为形式语句,过滤掉低质量语句,并生成证明来创建合成数据。在包含800万个带有证明的形式语句的合成数据集上微调DeepSeekMath 7B模型后,该模型在Lean 4 miniF2F测试中实现了46.3%的完整证明生成准确率,优于基线GPT-4(23.0%)和树搜索强化学习方法(41.0%)。

“轮到你发言”:一种提高 Wi-Fi 可靠性的新型信道竞争机制 (arxiv.org)

这篇论文介绍了一种名为“轮到你发言”(IYT)的新型信道竞争机制,旨在提升 Wi-Fi 的可靠性。 IYT 机制是对现有分布式协调功能 (DCF) 的扩展,通过提供有序的设备传输来改善分布式监听ก่อนพูด (LBT) 的可靠性。IYT 机制利用邻居活动感知来实现有序传输,并已通过仿真结果证明其在控制信道接入延迟方面的有效性,能够提供可靠的性能。

哥德尔智能体:一种递归自我改进的自我参照智能体框架 (arxiv.org)

哥德尔智能体是一种受哥德尔机启发的自我进化框架,允许智能体在不依赖预定义例程或固定优化算法的情况下递归地改进自身。它利用大型语言模型(LLM)在高级目标的指导下,通过提示动态地修改自身的逻辑和行为。在数学推理和复杂智能体任务上的实验结果表明,哥德尔智能体的实现可以实现持续的自我改进,在性能、效率和通用性方面都超过了人工设计的智能体。

迈向人工智能数学家:机器学习与信息论的概念 (arxiv.org)

这篇论文探讨了如何利用机器学习和信息论的概念来构建人工智能数学家。文章指出,当前深度学习在直觉和习惯行为方面取得了成功,但在推理和不确定性估计方面仍有不足。文章认为,一个理想的定理体系应该简洁地概括所有可证明的陈述,并提出信息论可以用来指导发现新的数学猜想。

线性可分性边缘的顿悟 (arxiv.org)

这篇文章研究了二元逻辑分类在简化设置下的泛化特性,并从经验和分析上阐明了其动力学中顿悟的潜在机制。研究发现,当应用于接近线性可分性的训练集时,顿悟现象会被放大。即使始终存在完美的泛化解决方案,但如果训练数据与原点线性可分,则逻辑损失的隐含偏差将导致模型过度拟合。

GSM-Symbolic:理解大型语言模型在数学推理中的局限性 (arxiv.org)

大型语言模型 (LLM) 在数学推理能力方面取得了进步,但其可靠性仍存在疑问。本文针对这一问题,引入了一个名为 GSM-Symbolic 的改进基准,用于评估模型在不同难度数学问题上的表现。研究发现,LLM 在处理相同问题结构但数值不同的情况下表现出显著差异。此外,模型的数学推理能力随着问题复杂性的增加而下降,这表明当前的 LLM 可能无法进行真正的逻辑推理,而是复制训练数据中的推理步骤。

Aria:一种开放的多模态原生混合专家模型 (arxiv.org)

Aria是一种开源的多模态原生模型,在各种多模态、语言和编码任务中均表现出色。它是一个混合专家模型,每个视觉标记和文本标记分别具有39亿和35亿个激活参数,性能优于Pixtral-12B和Llama3.2-11B,并在各种多模态任务上与最好的专有多模态模型竞争。

仅需加法即可构建节能语言模型 (arxiv.org)

这篇论文介绍了一种名为L-Mul的线性复杂度乘法算法,该算法可以使用整数加法运算来逼近浮点数乘法,从而显著降低大型神经网络的计算资源消耗。与8位浮点乘法相比,L-Mul算法在实现更高精度的同时,可以将逐元素浮点张量乘法的能耗降低95%,将点积的能耗降低80%。研究人员在多个文本、视觉和符号任务上对L-Mul算法进行了评估,结果表明该算法在保持高精度的同时,能够显著降低能耗。

差分Transformer (arxiv.org)

本文介绍了差分Transformer模型,该模型通过放大对相关上下文的注意力并消除噪声来解决传统Transformer模型过度关注无关上下文的问题。差分注意力机制通过计算两个独立的softmax注意力图之间的差异来获得注意力分数,从而消除噪声并促进稀疏注意力模式的出现。在语言建模等任务上的实验结果表明,差分Transformer在模型大小和训练数据规模等方面都优于传统的Transformer模型。

Sorbet:一种与神经形态硬件兼容的基于Transformer的脉冲语言模型 (arxiv.org)

为了满足边缘设备对语言模型的需求,该文介绍了一种名为Sorbet的基于Transformer的脉冲语言模型。Sorbet针对神经形态硬件的兼容性进行了优化,采用了PTsoftmax和BSPN等创新方法,分别替代了softmax和层归一化等高能耗操作,并通过知识蒸馏和模型量化实现了高效的二进制权重模型。

前线的恐惧与厌恶:解读俄乌战争博主如何使用“异化”语言 (arxiv.org)

本文介绍了一个利用大型语言模型 (LLM) 量量化“异化”语言的计算框架,并将其应用于Telegram 战争博主和 Gab 上的政治讨论的真实数据。研究揭示了“异化”是如何在冲突期间升级、与道德语言相互作用,以及如何获得大量关注,尤其是在危机时期。

我们还需要RNN吗? (arxiv.org)

这篇论文重新审视了传统的循环神经网络(RNNs),如LSTMs和GRUs,发现通过移除其输入、遗忘和更新门中的隐藏状态依赖关系,LSTMs和GRUs不再需要BPTT,可以高效地并行训练。作者介绍了LSTMs和GRUs的最小版本(minLSTMs和minGRUs),它们使用比传统版本少得多的参数,并且在训练期间完全可并行化。最后,作者表明这些简化版的RNNs与最近的序列模型的经验性能相匹配。

TPI-LLM:在低资源边缘设备上高效服务 70B 级 LLM (arxiv.org)

TPI-LLM是一种计算和内存高效的张量并行推理系统,旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上,并引入滑动窗口内存调度器来动态管理推理过程中的层权重,从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈,并通过与计算和通信重叠的磁盘I/O延迟来实现。

论文本编辑器的设计 (arxiv.org)

这篇论文探讨了文本编辑器的设计,指出开发者在布局、排版、颜色和交互方面做出的默认和隐含选择,并质疑这些选择是出于对替代方案的忽视还是出于习惯。作者试图描述这些隐含选择,并阐释一些替代方案,但没有规定哪种方案更好。

Eg-walker:更好、更快、更小的协同文本编辑算法 (arxiv.org)

Eg-walker是一种新的协同文本编辑算法,旨在解决现有OT算法和CRDT算法的不足。与CRDT相比,Eg-walker内存占用更少,加载速度更快;与OT相比,Eg-walker合并长分支的速度更快。Eg-walker适用于CRDT的各种场景,包括没有中央服务器的对等网络,为点对点协作软件的广泛应用铺平了道路。

LlamaF:嵌入式FPGA上的高效Llama2架构加速器 (arxiv.org)

文章介绍了一种名为LlamaF的FPGA加速器,旨在提升大型语言模型(LLM)在嵌入式设备上的推理性能。该加速器针对TinyLlama 1.1B模型进行了优化,采用训练后量化技术减少模型大小,并优化了片外内存带宽。通过异步计算和全流水线矩阵向量乘法器设计,LlamaF在Xilinx ZCU102平台上实现了14.3-15.8倍的加速和6.1倍的能效提升。

基于 NeRF 的特征点检测与描述 (arxiv.org)

本文提出了一种利用神经辐射场 (NeRF) 生成室内外场景数据集的新方法,用于特征点检测和描述。该方法通过透视投影几何对多视图 NeRF 合成数据进行监督训练,并在相对姿态估计、点云配准和单应性估计等标准基准测试中取得了优异性能,同时与现有方法相比,所需的训练数据和时间显著减少。

通过强化学习训练语言模型进行自我纠正 (arxiv.org)

这篇论文介绍了一种名为SCoRe的多轮在线强化学习方法,用于提高大型语言模型的自我纠正能力。研究发现,传统的监督式微调方法不足以训练出有效的自我纠正行为,因为存在训练数据和模型自身回复之间的分布不匹配问题。SCoRe通过在模型自生成的数据上进行训练并使用适当的正则化来解决这些挑战,最终显著提高了模型在MATH和HumanEval基准测试中的自我纠正性能。

CAVERNAUTE:用于洞穴探险的刚性可折叠室内飞艇空中系统的设计和制造流程 (arxiv.org)

本文介绍了一种名为 CAVERNAUTE 的新型室内飞艇设计,该设计灵感来自折纸和克雷斯林图案,用于洞穴探险。该飞艇结构结合了碳纤维外骨骼和紫外线树脂微晶格,以吸收冲击。这种设计增强了机器人的强度,同时允许通过折叠结构进入狭窄的空间,体积膨胀比高达 19.8。

大型语言模型硬件加速:综述与比较 (arxiv.org)

这篇文章综述了利用硬件加速器加速大型语言模型Transformer网络的各种研究工作,对不同技术、平台(FPGA、ASIC、内存、GPU)以及加速效果、能效、性能(GOPs)和能效比(GOPs/W)进行了定性和定量比较。文章还通过将不同方案的结果外推到相同的工艺技术上,进行了更公平的理论和实践比较。

广义卡洛斯音阶 (arxiv.org)

本文介绍了作曲家温蒂·卡洛斯在1986年提出的三种非常规音乐音阶——阿尔法、贝塔和伽马音阶,这些音阶的灵感来自十二平均律,淡化了八度音程作为主要音程的作用,而强调了大三度、小三度和纯五度的作用。文章对大卫·本森提出的阿尔法、贝塔和伽马音阶的推导进行了概括,从而产生了多种卡洛斯类型的音阶。

保持冷静:何时分布式一致性变得容易 (arxiv.org)

这篇论文介绍了CALM定理,该定理阐明了哪些程序可以进行一致的、无需协调的分布式实现。CALM代表“一致性即逻辑单调性”,该定理表明,只有那些可以用单调逻辑表示的程序才能实现一致的、无需协调的分布式实现。CALM定理为分布式应用程序的开发人员提供了理论指导,并对分布式系统设计产生影响。

← 前页 1 3 4 5 6