哥德尔智能体是一种受哥德尔机启发的自我进化框架,允许智能体在不依赖预定义例程或固定优化算法的情况下递归地改进自身。它利用大型语言模型(LLM)在高级目标的指导下,通过提示动态地修改自身的逻辑和行为。在数学推理和复杂智能体任务上的实验结果表明,哥德尔智能体的实现可以实现持续的自我改进,在性能、效率和通用性方面都超过了人工设计的智能体。
这篇论文探讨了如何利用机器学习和信息论的概念来构建人工智能数学家。文章指出,当前深度学习在直觉和习惯行为方面取得了成功,但在推理和不确定性估计方面仍有不足。文章认为,一个理想的定理体系应该简洁地概括所有可证明的陈述,并提出信息论可以用来指导发现新的数学猜想。
大型语言模型 (LLM) 在数学推理能力方面取得了进步,但其可靠性仍存在疑问。本文针对这一问题,引入了一个名为 GSM-Symbolic 的改进基准,用于评估模型在不同难度数学问题上的表现。研究发现,LLM 在处理相同问题结构但数值不同的情况下表现出显著差异。此外,模型的数学推理能力随着问题复杂性的增加而下降,这表明当前的 LLM 可能无法进行真正的逻辑推理,而是复制训练数据中的推理步骤。
Aria是一种开源的多模态原生模型,在各种多模态、语言和编码任务中均表现出色。它是一个混合专家模型,每个视觉标记和文本标记分别具有39亿和35亿个激活参数,性能优于Pixtral-12B和Llama3.2-11B,并在各种多模态任务上与最好的专有多模态模型竞争。
这篇论文介绍了一种名为L-Mul的线性复杂度乘法算法,该算法可以使用整数加法运算来逼近浮点数乘法,从而显著降低大型神经网络的计算资源消耗。与8位浮点乘法相比,L-Mul算法在实现更高精度的同时,可以将逐元素浮点张量乘法的能耗降低95%,将点积的能耗降低80%。研究人员在多个文本、视觉和符号任务上对L-Mul算法进行了评估,结果表明该算法在保持高精度的同时,能够显著降低能耗。
本文介绍了差分Transformer模型,该模型通过放大对相关上下文的注意力并消除噪声来解决传统Transformer模型过度关注无关上下文的问题。差分注意力机制通过计算两个独立的softmax注意力图之间的差异来获得注意力分数,从而消除噪声并促进稀疏注意力模式的出现。在语言建模等任务上的实验结果表明,差分Transformer在模型大小和训练数据规模等方面都优于传统的Transformer模型。
为了满足边缘设备对语言模型的需求,该文介绍了一种名为Sorbet的基于Transformer的脉冲语言模型。Sorbet针对神经形态硬件的兼容性进行了优化,采用了PTsoftmax和BSPN等创新方法,分别替代了softmax和层归一化等高能耗操作,并通过知识蒸馏和模型量化实现了高效的二进制权重模型。
这篇论文重新审视了传统的循环神经网络(RNNs),如LSTMs和GRUs,发现通过移除其输入、遗忘和更新门中的隐藏状态依赖关系,LSTMs和GRUs不再需要BPTT,可以高效地并行训练。作者介绍了LSTMs和GRUs的最小版本(minLSTMs和minGRUs),它们使用比传统版本少得多的参数,并且在训练期间完全可并行化。最后,作者表明这些简化版的RNNs与最近的序列模型的经验性能相匹配。
TPI-LLM是一种计算和内存高效的张量并行推理系统,旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上,并引入滑动窗口内存调度器来动态管理推理过程中的层权重,从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈,并通过与计算和通信重叠的磁盘I/O延迟来实现。
Eg-walker是一种新的协同文本编辑算法,旨在解决现有OT算法和CRDT算法的不足。与CRDT相比,Eg-walker内存占用更少,加载速度更快;与OT相比,Eg-walker合并长分支的速度更快。Eg-walker适用于CRDT的各种场景,包括没有中央服务器的对等网络,为点对点协作软件的广泛应用铺平了道路。
文章介绍了一种名为LlamaF的FPGA加速器,旨在提升大型语言模型(LLM)在嵌入式设备上的推理性能。该加速器针对TinyLlama 1.1B模型进行了优化,采用训练后量化技术减少模型大小,并优化了片外内存带宽。通过异步计算和全流水线矩阵向量乘法器设计,LlamaF在Xilinx ZCU102平台上实现了14.3-15.8倍的加速和6.1倍的能效提升。
这篇论文介绍了一种名为SCoRe的多轮在线强化学习方法,用于提高大型语言模型的自我纠正能力。研究发现,传统的监督式微调方法不足以训练出有效的自我纠正行为,因为存在训练数据和模型自身回复之间的分布不匹配问题。SCoRe通过在模型自生成的数据上进行训练并使用适当的正则化来解决这些挑战,最终显著提高了模型在MATH和HumanEval基准测试中的自我纠正性能。
本文介绍了一种名为 CAVERNAUTE 的新型室内飞艇设计,该设计灵感来自折纸和克雷斯林图案,用于洞穴探险。该飞艇结构结合了碳纤维外骨骼和紫外线树脂微晶格,以吸收冲击。这种设计增强了机器人的强度,同时允许通过折叠结构进入狭窄的空间,体积膨胀比高达 19.8。
这篇文章综述了利用硬件加速器加速大型语言模型Transformer网络的各种研究工作,对不同技术、平台(FPGA、ASIC、内存、GPU)以及加速效果、能效、性能(GOPs)和能效比(GOPs/W)进行了定性和定量比较。文章还通过将不同方案的结果外推到相同的工艺技术上,进行了更公平的理论和实践比较。
这篇论文介绍了CALM定理,该定理阐明了哪些程序可以进行一致的、无需协调的分布式实现。CALM代表“一致性即逻辑单调性”,该定理表明,只有那些可以用单调逻辑表示的程序才能实现一致的、无需协调的分布式实现。CALM定理为分布式应用程序的开发人员提供了理论指导,并对分布式系统设计产生影响。
这篇文章研究了拼图游戏所需的桌子面积。作者推导出一个简单的公式,基于二维圆形堆积原理,得出结论:未组装的拼图面积是组装后拼图面积的√3倍,与拼图块数无关。作者通过对9个不同大小的拼图进行测量,验证了该公式的准确性。
文章介绍了一种名为“辐射级联”的新技术,用于解决天体物理学中多维非局部热力学平衡辐射传递问题。该技术通过有效利用辐射场的固有结构,允许高效地重复使用计算样本,从而以比现有方法更低的计算成本提供非常高分辨率的结果。文章还描述了该方法在 DexRT 代码中的实现,并展示了对通过悬浮-凝聚形成的太阳日珥磁流体动力学模型快照进行合成的初步结果。
Sapiens是一系列用于人类视觉任务的模型,包括二维姿态估计、身体部位分割、深度估计和表面法线预测。这些模型在超过3亿张人类图像上进行了预训练,只需微调即可轻松适应不同的任务。Sapiens在各种人类视觉基准测试中始终优于现有模型,并在Humans-5K(姿态)、Humans-2K(部位分割)、Hi4D(深度)和THuman2(法线)等方面取得了显著的性能提升。
本文探讨了“独特性偏差”,一种将决策视为独一无二的规划者和管理者倾向的行为偏差。研究首次将独特性偏差与现实世界项目投资决策中的预测准确性和绩效相关联。文章指出将项目视为独特的传统框架会导致项目绩效不佳,并通过对219个项目的样本进行测试,发现感知到的独特性与低绩效之间确实存在高度的统计学意义上的关联。最后,文章指出决策者可以通过“决策卫生”来减轻项目中的独特性偏差,特别是参考类别预测、事后分析、基于相似性的预测和噪音审计。
这篇文章介绍了一种名为DifuzCam的全新相机设计,它用遮罩和扩散模型取代了传统的相机镜头。这种设计通过预先训练的扩散模型和控制网络,从传感器捕捉到的原始数据中重建图像,从而显著减小了相机尺寸和重量,并实现了高质量成像。此外,DifuzCam还可以利用场景的文本描述来进一步增强重建效果。
这篇论文介绍了树形注意力机制,一种在GPU集群上进行长上下文注意力计算的新方法。该方法通过将注意力计算并行化,并利用树形结构减少跨设备通信,从而显著提高了计算效率。实验结果表明,树形注意力机制比其他方法(如环形注意力机制)快8倍,同时所需的通信量更少,峰值内存占用也更低。
OpenDevin 是一个面向 AI 软件开发人员的开放平台,允许开发人员像人类开发者一样通过编写代码、与命令行交互和浏览网页来与世界进行交互。该平台支持新代理的实现、与沙盒环境的安全交互以执行代码、多个代理之间的协调以及评估基准的合并。
GPUDrive是一个基于Madrona游戏引擎构建的GPU加速多智能体模拟器,每秒可生成超过一百万步的体验,用于研究大规模多智能体规划。它允许用户直接在C++中编写观察、奖励和动力学函数,以定义复杂、异构的智能体行为。研究表明,使用GPUDrive可以在Waymo Motion数据集的多个场景中有效地训练强化学习智能体,在几分钟内就能为单个场景生成高效的目标达成智能体,并在几小时内生成具有普遍能力的智能体。