这篇论文研究了数值精度对基于Transformer的大型语言模型(LLM)数学推理能力的影响。研究发现,低数值精度的Transformer模型在处理迭代加法和整数乘法等算术任务时表现不佳,除非模型规模相对于输入长度呈超多项式增长。相比之下,具有标准数值精度的Transformer模型可以用小得多的模型规模有效地处理这些任务。
这篇报告全面概述了大型语言模型(LLM)的微调技术,整合了理论见解和实际应用,涵盖了从传统自然语言处理模型到LLM在人工智能中关键作用的历史演变,比较了不同微调方法的优缺点,并介绍了一个结构化的七阶段LLM微调流程。报告重点阐述了数据准备、模型初始化、超参数调整和模型部署等关键步骤,并深入探讨了参数高效方法、内存微调、多专家混合、代理混合等前沿技术,以及验证框架、部署后监控和推理优化等实用建议。
这篇论文系统地评估了 QUIC 协议在高速网络环境下的性能。研究发现,相比于 TCP+TLS+HTTP/2,UDP+QUIC+HTTP/3 在高速互联网环境下数据传输速率降低了 45.2%。QUIC 和 HTTP/2 之间的性能差距随着带宽的增加而扩大。导致这个问题的根本原因是接收端过高的处理开销,特别是过多的数据包和 QUIC 的用户空间 ACK。
LLMD是一种新的大语言模型,旨在基于患者的病历分析其病史。与仅接受知识训练的模型不同,LLMD接受了大量跨时间和医疗机构收集的病历、任务和标签的训练,从而能够更准确地了解患者的健康状况。LLMD在医学知识基准测试中表现出色,并在实际生产任务中显著优于其他模型,包括更强大的通用模型和特定领域模型。
文章介绍了一种名为Skip Hash的新型有序映射数据结构,它结合了跳表和哈希映射的优点,并利用软件事务内存(STM)实现了快速、可线性化的范围查询,同时保证了并发插入和删除操作的高效性。实验结果表明,Skip Hash在性能上几乎优于所有现有方案,兼具高效性和简洁性。
Meissonic是一种新的文本到图像合成模型,它改进了非自回归掩码图像建模 (MIM),实现了与SDXL等顶级扩散模型相媲美的性能。Meissonic采用了一系列架构创新、先进的位置编码策略和优化的采样条件,显著提升了MIM的性能和效率,并通过高质量的训练数据、结合人类偏好分数的微调以及特征压缩层,进一步增强了图像的保真度和分辨率。
为了解决大型语言模型(LLM)在形式定理证明方面训练数据缺乏的问题,DeepSeek-Prover方法利用高中和本科水平的数学竞赛问题生成大量的Lean 4证明数据。该方法将自然语言问题转化为形式语句,过滤掉低质量语句,并生成证明来创建合成数据。在包含800万个带有证明的形式语句的合成数据集上微调DeepSeekMath 7B模型后,该模型在Lean 4 miniF2F测试中实现了46.3%的完整证明生成准确率,优于基线GPT-4(23.0%)和树搜索强化学习方法(41.0%)。
这篇论文介绍了一种名为“轮到你发言”(IYT)的新型信道竞争机制,旨在提升 Wi-Fi 的可靠性。 IYT 机制是对现有分布式协调功能 (DCF) 的扩展,通过提供有序的设备传输来改善分布式监听ก่อนพูด (LBT) 的可靠性。IYT 机制利用邻居活动感知来实现有序传输,并已通过仿真结果证明其在控制信道接入延迟方面的有效性,能够提供可靠的性能。
哥德尔智能体是一种受哥德尔机启发的自我进化框架,允许智能体在不依赖预定义例程或固定优化算法的情况下递归地改进自身。它利用大型语言模型(LLM)在高级目标的指导下,通过提示动态地修改自身的逻辑和行为。在数学推理和复杂智能体任务上的实验结果表明,哥德尔智能体的实现可以实现持续的自我改进,在性能、效率和通用性方面都超过了人工设计的智能体。
这篇论文探讨了如何利用机器学习和信息论的概念来构建人工智能数学家。文章指出,当前深度学习在直觉和习惯行为方面取得了成功,但在推理和不确定性估计方面仍有不足。文章认为,一个理想的定理体系应该简洁地概括所有可证明的陈述,并提出信息论可以用来指导发现新的数学猜想。
大型语言模型 (LLM) 在数学推理能力方面取得了进步,但其可靠性仍存在疑问。本文针对这一问题,引入了一个名为 GSM-Symbolic 的改进基准,用于评估模型在不同难度数学问题上的表现。研究发现,LLM 在处理相同问题结构但数值不同的情况下表现出显著差异。此外,模型的数学推理能力随着问题复杂性的增加而下降,这表明当前的 LLM 可能无法进行真正的逻辑推理,而是复制训练数据中的推理步骤。
Aria是一种开源的多模态原生模型,在各种多模态、语言和编码任务中均表现出色。它是一个混合专家模型,每个视觉标记和文本标记分别具有39亿和35亿个激活参数,性能优于Pixtral-12B和Llama3.2-11B,并在各种多模态任务上与最好的专有多模态模型竞争。
这篇论文介绍了一种名为L-Mul的线性复杂度乘法算法,该算法可以使用整数加法运算来逼近浮点数乘法,从而显著降低大型神经网络的计算资源消耗。与8位浮点乘法相比,L-Mul算法在实现更高精度的同时,可以将逐元素浮点张量乘法的能耗降低95%,将点积的能耗降低80%。研究人员在多个文本、视觉和符号任务上对L-Mul算法进行了评估,结果表明该算法在保持高精度的同时,能够显著降低能耗。
本文介绍了差分Transformer模型,该模型通过放大对相关上下文的注意力并消除噪声来解决传统Transformer模型过度关注无关上下文的问题。差分注意力机制通过计算两个独立的softmax注意力图之间的差异来获得注意力分数,从而消除噪声并促进稀疏注意力模式的出现。在语言建模等任务上的实验结果表明,差分Transformer在模型大小和训练数据规模等方面都优于传统的Transformer模型。
为了满足边缘设备对语言模型的需求,该文介绍了一种名为Sorbet的基于Transformer的脉冲语言模型。Sorbet针对神经形态硬件的兼容性进行了优化,采用了PTsoftmax和BSPN等创新方法,分别替代了softmax和层归一化等高能耗操作,并通过知识蒸馏和模型量化实现了高效的二进制权重模型。
这篇论文重新审视了传统的循环神经网络(RNNs),如LSTMs和GRUs,发现通过移除其输入、遗忘和更新门中的隐藏状态依赖关系,LSTMs和GRUs不再需要BPTT,可以高效地并行训练。作者介绍了LSTMs和GRUs的最小版本(minLSTMs和minGRUs),它们使用比传统版本少得多的参数,并且在训练期间完全可并行化。最后,作者表明这些简化版的RNNs与最近的序列模型的经验性能相匹配。
TPI-LLM是一种计算和内存高效的张量并行推理系统,旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上,并引入滑动窗口内存调度器来动态管理推理过程中的层权重,从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈,并通过与计算和通信重叠的磁盘I/O延迟来实现。
Eg-walker是一种新的协同文本编辑算法,旨在解决现有OT算法和CRDT算法的不足。与CRDT相比,Eg-walker内存占用更少,加载速度更快;与OT相比,Eg-walker合并长分支的速度更快。Eg-walker适用于CRDT的各种场景,包括没有中央服务器的对等网络,为点对点协作软件的广泛应用铺平了道路。
文章介绍了一种名为LlamaF的FPGA加速器,旨在提升大型语言模型(LLM)在嵌入式设备上的推理性能。该加速器针对TinyLlama 1.1B模型进行了优化,采用训练后量化技术减少模型大小,并优化了片外内存带宽。通过异步计算和全流水线矩阵向量乘法器设计,LlamaF在Xilinx ZCU102平台上实现了14.3-15.8倍的加速和6.1倍的能效提升。
这篇论文介绍了一种名为SCoRe的多轮在线强化学习方法,用于提高大型语言模型的自我纠正能力。研究发现,传统的监督式微调方法不足以训练出有效的自我纠正行为,因为存在训练数据和模型自身回复之间的分布不匹配问题。SCoRe通过在模型自生成的数据上进行训练并使用适当的正则化来解决这些挑战,最终显著提高了模型在MATH和HumanEval基准测试中的自我纠正性能。
本文介绍了一种名为 CAVERNAUTE 的新型室内飞艇设计,该设计灵感来自折纸和克雷斯林图案,用于洞穴探险。该飞艇结构结合了碳纤维外骨骼和紫外线树脂微晶格,以吸收冲击。这种设计增强了机器人的强度,同时允许通过折叠结构进入狭窄的空间,体积膨胀比高达 19.8。
这篇文章综述了利用硬件加速器加速大型语言模型Transformer网络的各种研究工作,对不同技术、平台(FPGA、ASIC、内存、GPU)以及加速效果、能效、性能(GOPs)和能效比(GOPs/W)进行了定性和定量比较。文章还通过将不同方案的结果外推到相同的工艺技术上,进行了更公平的理论和实践比较。
这篇论文介绍了CALM定理,该定理阐明了哪些程序可以进行一致的、无需协调的分布式实现。CALM代表“一致性即逻辑单调性”,该定理表明,只有那些可以用单调逻辑表示的程序才能实现一致的、无需协调的分布式实现。CALM定理为分布式应用程序的开发人员提供了理论指导,并对分布式系统设计产生影响。