QUIC 在高速互联网环境下速度不够快
这篇论文系统地评估了 QUIC 协议在高速网络环境下的性能。研究发现,相比于 TCP+TLS+HTTP/2,UDP+QUIC+HTTP/3 在高速互联网环境下数据传输速率降低了 45.2%。QUIC 和 HTTP/2 之间的性能差距随着带宽的增加而扩大。导致这个问题的根本原因是接收端过高的处理开销,特别是过多的数据包和 QUIC 的用户空间 ACK。
阅读更多
这篇论文系统地评估了 QUIC 协议在高速网络环境下的性能。研究发现,相比于 TCP+TLS+HTTP/2,UDP+QUIC+HTTP/3 在高速互联网环境下数据传输速率降低了 45.2%。QUIC 和 HTTP/2 之间的性能差距随着带宽的增加而扩大。导致这个问题的根本原因是接收端过高的处理开销,特别是过多的数据包和 QUIC 的用户空间 ACK。
阅读更多
这篇论文探讨了随机森林为何如此有效。作者认为,将随机森林理解为自适应、自正则化的平滑器是关键。论文指出,随机森林的预测结果比单个决策树更加平滑,并且能根据测试和训练数据的差异调整平滑程度。此外,论文还反驳了普遍认为的随机森林优于单个决策树仅仅是由于方差降低的观点,认为随机森林的平滑效应可以通过减少预测方差、提高学习函数质量以及丰富假设空间来提升性能。
阅读更多
LLMD是一种新的大语言模型,旨在基于患者的病历分析其病史。与仅接受知识训练的模型不同,LLMD接受了大量跨时间和医疗机构收集的病历、任务和标签的训练,从而能够更准确地了解患者的健康状况。LLMD在医学知识基准测试中表现出色,并在实际生产任务中显著优于其他模型,包括更强大的通用模型和特定领域模型。
阅读更多
文章介绍了一种名为Skip Hash的新型有序映射数据结构,它结合了跳表和哈希映射的优点,并利用软件事务内存(STM)实现了快速、可线性化的范围查询,同时保证了并发插入和删除操作的高效性。实验结果表明,Skip Hash在性能上几乎优于所有现有方案,兼具高效性和简洁性。
阅读更多
Meissonic是一种新的文本到图像合成模型,它改进了非自回归掩码图像建模 (MIM),实现了与SDXL等顶级扩散模型相媲美的性能。Meissonic采用了一系列架构创新、先进的位置编码策略和优化的采样条件,显著提升了MIM的性能和效率,并通过高质量的训练数据、结合人类偏好分数的微调以及特征压缩层,进一步增强了图像的保真度和分辨率。
阅读更多
为了解决大型语言模型(LLM)在形式定理证明方面训练数据缺乏的问题,DeepSeek-Prover方法利用高中和本科水平的数学竞赛问题生成大量的Lean 4证明数据。该方法将自然语言问题转化为形式语句,过滤掉低质量语句,并生成证明来创建合成数据。在包含800万个带有证明的形式语句的合成数据集上微调DeepSeekMath 7B模型后,该模型在Lean 4 miniF2F测试中实现了46.3%的完整证明生成准确率,优于基线GPT-4(23.0%)和树搜索强化学习方法(41.0%)。
阅读更多
这篇论文介绍了一种名为“轮到你发言”(IYT)的新型信道竞争机制,旨在提升 Wi-Fi 的可靠性。 IYT 机制是对现有分布式协调功能 (DCF) 的扩展,通过提供有序的设备传输来改善分布式监听ก่อนพูด (LBT) 的可靠性。IYT 机制利用邻居活动感知来实现有序传输,并已通过仿真结果证明其在控制信道接入延迟方面的有效性,能够提供可靠的性能。
阅读更多
哥德尔智能体是一种受哥德尔机启发的自我进化框架,允许智能体在不依赖预定义例程或固定优化算法的情况下递归地改进自身。它利用大型语言模型(LLM)在高级目标的指导下,通过提示动态地修改自身的逻辑和行为。在数学推理和复杂智能体任务上的实验结果表明,哥德尔智能体的实现可以实现持续的自我改进,在性能、效率和通用性方面都超过了人工设计的智能体。
阅读更多
这篇论文探讨了如何利用机器学习和信息论的概念来构建人工智能数学家。文章指出,当前深度学习在直觉和习惯行为方面取得了成功,但在推理和不确定性估计方面仍有不足。文章认为,一个理想的定理体系应该简洁地概括所有可证明的陈述,并提出信息论可以用来指导发现新的数学猜想。
阅读更多
这篇文章研究了二元逻辑分类在简化设置下的泛化特性,并从经验和分析上阐明了其动力学中顿悟的潜在机制。研究发现,当应用于接近线性可分性的训练集时,顿悟现象会被放大。即使始终存在完美的泛化解决方案,但如果训练数据与原点线性可分,则逻辑损失的隐含偏差将导致模型过度拟合。
阅读更多
大型语言模型 (LLM) 在数学推理能力方面取得了进步,但其可靠性仍存在疑问。本文针对这一问题,引入了一个名为 GSM-Symbolic 的改进基准,用于评估模型在不同难度数学问题上的表现。研究发现,LLM 在处理相同问题结构但数值不同的情况下表现出显著差异。此外,模型的数学推理能力随着问题复杂性的增加而下降,这表明当前的 LLM 可能无法进行真正的逻辑推理,而是复制训练数据中的推理步骤。
阅读更多
Aria是一种开源的多模态原生模型,在各种多模态、语言和编码任务中均表现出色。它是一个混合专家模型,每个视觉标记和文本标记分别具有39亿和35亿个激活参数,性能优于Pixtral-12B和Llama3.2-11B,并在各种多模态任务上与最好的专有多模态模型竞争。
阅读更多
这篇论文介绍了一种名为L-Mul的线性复杂度乘法算法,该算法可以使用整数加法运算来逼近浮点数乘法,从而显著降低大型神经网络的计算资源消耗。与8位浮点乘法相比,L-Mul算法在实现更高精度的同时,可以将逐元素浮点张量乘法的能耗降低95%,将点积的能耗降低80%。研究人员在多个文本、视觉和符号任务上对L-Mul算法进行了评估,结果表明该算法在保持高精度的同时,能够显著降低能耗。
阅读更多
本文介绍了差分Transformer模型,该模型通过放大对相关上下文的注意力并消除噪声来解决传统Transformer模型过度关注无关上下文的问题。差分注意力机制通过计算两个独立的softmax注意力图之间的差异来获得注意力分数,从而消除噪声并促进稀疏注意力模式的出现。在语言建模等任务上的实验结果表明,差分Transformer在模型大小和训练数据规模等方面都优于传统的Transformer模型。
阅读更多
为了满足边缘设备对语言模型的需求,该文介绍了一种名为Sorbet的基于Transformer的脉冲语言模型。Sorbet针对神经形态硬件的兼容性进行了优化,采用了PTsoftmax和BSPN等创新方法,分别替代了softmax和层归一化等高能耗操作,并通过知识蒸馏和模型量化实现了高效的二进制权重模型。
阅读更多
本文介绍了一个利用大型语言模型 (LLM) 量量化“异化”语言的计算框架,并将其应用于Telegram 战争博主和 Gab 上的政治讨论的真实数据。研究揭示了“异化”是如何在冲突期间升级、与道德语言相互作用,以及如何获得大量关注,尤其是在危机时期。
阅读更多
这篇论文重新审视了传统的循环神经网络(RNNs),如LSTMs和GRUs,发现通过移除其输入、遗忘和更新门中的隐藏状态依赖关系,LSTMs和GRUs不再需要BPTT,可以高效地并行训练。作者介绍了LSTMs和GRUs的最小版本(minLSTMs和minGRUs),它们使用比传统版本少得多的参数,并且在训练期间完全可并行化。最后,作者表明这些简化版的RNNs与最近的序列模型的经验性能相匹配。
阅读更多
TPI-LLM是一种计算和内存高效的张量并行推理系统,旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上,并引入滑动窗口内存调度器来动态管理推理过程中的层权重,从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈,并通过与计算和通信重叠的磁盘I/O延迟来实现。
阅读更多
Eg-walker是一种新的协同文本编辑算法,旨在解决现有OT算法和CRDT算法的不足。与CRDT相比,Eg-walker内存占用更少,加载速度更快;与OT相比,Eg-walker合并长分支的速度更快。Eg-walker适用于CRDT的各种场景,包括没有中央服务器的对等网络,为点对点协作软件的广泛应用铺平了道路。
阅读更多
文章介绍了一种名为LlamaF的FPGA加速器,旨在提升大型语言模型(LLM)在嵌入式设备上的推理性能。该加速器针对TinyLlama 1.1B模型进行了优化,采用训练后量化技术减少模型大小,并优化了片外内存带宽。通过异步计算和全流水线矩阵向量乘法器设计,LlamaF在Xilinx ZCU102平台上实现了14.3-15.8倍的加速和6.1倍的能效提升。
阅读更多
本文提出了一种利用神经辐射场 (NeRF) 生成室内外场景数据集的新方法,用于特征点检测和描述。该方法通过透视投影几何对多视图 NeRF 合成数据进行监督训练,并在相对姿态估计、点云配准和单应性估计等标准基准测试中取得了优异性能,同时与现有方法相比,所需的训练数据和时间显著减少。
阅读更多
这篇论文介绍了一种名为SCoRe的多轮在线强化学习方法,用于提高大型语言模型的自我纠正能力。研究发现,传统的监督式微调方法不足以训练出有效的自我纠正行为,因为存在训练数据和模型自身回复之间的分布不匹配问题。SCoRe通过在模型自生成的数据上进行训练并使用适当的正则化来解决这些挑战,最终显著提高了模型在MATH和HumanEval基准测试中的自我纠正性能。
阅读更多
本文介绍了一种名为 CAVERNAUTE 的新型室内飞艇设计,该设计灵感来自折纸和克雷斯林图案,用于洞穴探险。该飞艇结构结合了碳纤维外骨骼和紫外线树脂微晶格,以吸收冲击。这种设计增强了机器人的强度,同时允许通过折叠结构进入狭窄的空间,体积膨胀比高达 19.8。
阅读更多
这篇文章综述了利用硬件加速器加速大型语言模型Transformer网络的各种研究工作,对不同技术、平台(FPGA、ASIC、内存、GPU)以及加速效果、能效、性能(GOPs)和能效比(GOPs/W)进行了定性和定量比较。文章还通过将不同方案的结果外推到相同的工艺技术上,进行了更公平的理论和实践比较。
阅读更多
这篇论文介绍了CALM定理,该定理阐明了哪些程序可以进行一致的、无需协调的分布式实现。CALM代表“一致性即逻辑单调性”,该定理表明,只有那些可以用单调逻辑表示的程序才能实现一致的、无需协调的分布式实现。CALM定理为分布式应用程序的开发人员提供了理论指导,并对分布式系统设计产生影响。
阅读更多
这篇论文研究了在固定推理预算下,使用更强大但更昂贵的语言模型(SE)与更弱但更便宜的语言模型(WC)生成合成数据之间的权衡。研究发现,WC模型生成的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。然而,在知识蒸馏、自我改进和弱到强改进设置等不同情况下,使用WC模型生成的数据微调的语言模型在多个基准测试和多个WC和SE模型选择中始终优于使用SE模型生成的数据训练的模型。
阅读更多
这篇文章研究了拼图游戏所需的桌子面积。作者推导出一个简单的公式,基于二维圆形堆积原理,得出结论:未组装的拼图面积是组装后拼图面积的√3倍,与拼图块数无关。作者通过对9个不同大小的拼图进行测量,验证了该公式的准确性。
阅读更多
文章介绍了一种名为“辐射级联”的新技术,用于解决天体物理学中多维非局部热力学平衡辐射传递问题。该技术通过有效利用辐射场的固有结构,允许高效地重复使用计算样本,从而以比现有方法更低的计算成本提供非常高分辨率的结果。文章还描述了该方法在 DexRT 代码中的实现,并展示了对通过悬浮-凝聚形成的太阳日珥磁流体动力学模型快照进行合成的初步结果。
阅读更多