用Minecraft游戏估算数学常数

2024-12-04
用Minecraft游戏估算数学常数

本文介绍了如何使用Minecraft游戏实验性地估算四个不同的数学常数:√2、π、欧拉数e和阿培里常数ζ(3)。文章首先简要介绍了每个常数的历史及其在数学中的应用,然后解释了如何利用Minecraft的机制来估算这些常数。文章的目标不在于获得最精确的近似值,而是激发人们在学习各种数学主题的同时享受乐趣。

阅读更多
12
未分类 数学常数

通过动态执行方法加速AI推理

2024-12-03
通过动态执行方法加速AI推理

本文研究了基于输入优化计算流程的动态执行技术,旨在识别可以用更少资源解决的简单问题。讨论的技术包括深度网络的提前退出、语言模型的推测性采样和扩散模型的自适应步骤。实验结果表明,这些动态方法可以显著提高延迟和吞吐量,而不会影响质量。结合量化等基于模型的优化,动态执行提供了一种强大的多管齐下的AI推理优化策略。文章还介绍了将这些技术集成到英特尔性能库和Huggingface Optimum中的案例,以提高其易用性和采用率。

阅读更多
9
未分类 动态执行

预训练中的程序性知识驱动大型语言模型的推理

2024-12-01
预训练中的程序性知识驱动大型语言模型的推理

大型语言模型(LLM)的推理能力一直备受关注,本文研究了LLM在执行推理任务时所使用的泛化策略。研究人员通过分析对模型输出有影响的预训练数据,发现LLM在处理事实性问题和推理问题时依赖不同的数据。对于事实性问题,模型依赖于不同的数据集;而对于推理问题,同一任务下的不同问题往往依赖于相似的数据,这表明LLM具备程序性知识。此外,推理问题的答案和中间步骤的答案通常不会在最有影响力的数据中出现。通过对推理问题中最具影响力的文档进行定性分析,研究人员确认这些文档通常包含程序性知识,例如演示如何使用公式或代码获得解决方案。研究结果表明,LLM的推理方法不像检索,而更像一种从执行类似推理的文档中综合程序性知识的泛化策略。

阅读更多
13
未分类 程序性知识

大型语言模型作为马尔可夫链

2024-12-01
大型语言模型作为马尔可夫链

本文将拥有大小为T的词汇表和大小为K的上下文窗口的通用自回归语言模型与在大小为O(T^K)的有限状态空间上定义的马尔可夫链进行了等效性分析。文中探讨了LLM推理能力的马尔可夫链平稳分布的存在性、收敛速度以及温度对收敛速度的影响,并推导了预训练和上下文泛化界限。最后, 通过在几个最新的LLM上进行实验,说明了理论保证如何捕捉实际观察到的行为。

阅读更多
6
未分类

DynaSaur:超越预定义动作的大语言模型代理

2024-12-01
DynaSaur:超越预定义动作的大语言模型代理

现有的LLM代理系统通常从固定的预定义动作集中选择动作,这限制了其在复杂环境中的能力。DynaSaur 提出了一种新的LLM代理框架,允许代理动态创建和组合动作。该框架允许代理通过生成和执行用通用编程语言编写的程序来与环境交互,并在后续步骤中重复使用这些生成的程序。在GAIA基准测试中,DynaSaur 表现出更大的灵活性和优于现有方法的性能,并在编写本文时位居GAIA公共排行榜榜首。

阅读更多
11

下一词预测中的物理学

2024-11-29
下一词预测中的物理学

该研究发现了下一词预测(NTP)中的潜在物理规律,提出了信息容量第一定律(IC-1),指出自回归模型中智能涌现的本质是一个信息传递过程。同时,该研究将Landauer原理引入NTP,制定了信息容量第二定律(IC-2),建立了自回归模型训练与能量消耗之间的关系,并提出了一些对实际应用具有指导意义的推论。最后,该研究论证了信息容量定律与神经语言模型的缩放定律、知识容量缩放定律和精度缩放定律之间的一致性。

阅读更多
12
未分类 信息容量定律

浮点数自标记

2024-11-28
浮点数自标记

本文提出了一种新的对象标记方法——自标记,它可以将类型信息附加到64位对象上,同时保留使用所有64位存储数据的能力。自标记利用某些位序列以非常高的概率出现这一事实,将标签与这些频繁出现的序列叠加,从而在单个机器字中同时编码64位数据和类型信息。在Scheme和JavaScript中,自标记的实现使得浮点密集型基准测试的执行时间分别加快了2.3倍和2.7倍,且不影响其他基准测试的性能,使其成为标记指针和NaN标记的良好替代方案。

阅读更多
9
未分类 对象标记

语义正则表达式的成员测试

2024-11-27
语义正则表达式的成员测试

本文研究了语义正则表达式的成员测试问题,提出了一种基于NFA的两遍算法,用于确定字符串是否匹配语义正则表达式。该算法时间复杂度为O(|r|^2 |w|^2 + |r| |w|^3),在没有嵌套查询的常见情况下,时间复杂度为O(|r|^2 |w|^2)。实验验证了该算法的有效性,其性能远超基于动态规划的基线方法。此外,文章还探讨了语义正则表达式成员测试与图论中三角形查找问题之间的联系,并证明了进行成员测试所需oracle查询次数的下界为Ω(|w|^2)。

阅读更多
13
未分类 成员测试

3D打印电机旋转支架用于光学应用的分步指南

2024-11-26
3D打印电机旋转支架用于光学应用的分步指南

本文介绍了如何使用3D打印机和现成组件构建两种不同类型的用于1英寸光学元件的电动旋转支架。一种用于反射元件(如镜子和光栅),另一种用于透射元件(如偏振器和延迟器)。文章评估并比较了它们与商业系统的性能,包括速度、分辨率、精度、反冲和轴摆动,并使用艾伦方差分析研究了角度稳定性。结果表明,自制支架的性能与价格超过2000欧元的系统相似,而制造成本不到200欧元,且构建速度更快。文章还展示了如何在光镊和拉曼光谱装置中控制激光,最终实现了0.03个百分点或更高的分辨率的强度控制。

阅读更多
11
未分类 旋转支架

Deegen:一款面向动态语言的JIT虚拟机生成器

2024-11-24
Deegen:一款面向动态语言的JIT虚拟机生成器

Deegen是一个元编译器,可以自动生成带有JIT功能的高性能虚拟机,用于动态语言。用户只需以C++函数的形式提供字节码的执行语义,Deegen即可生成包含解释器、基准JIT编译器和tier-switching逻辑的双层VM执行引擎。Deegen生成的解释器性能优于现有技术水平,并且首次实现了JIT编译器的自动生成。通过字节码特化、寄存器 pinning、内联缓存等多种优化,Deegen生成的代码质量可与专家手写的汇编代码媲美。使用Deegen实现的LuaJIT Remake (LJR) 在44个基准测试中,解释器性能比官方PUC Lua解释器快179%,比LuaJIT解释器快31%;基准JIT启动延迟极低,执行性能比PUC Lua快360%,仅比LuaJIT的优化JIT慢33%,甚至在13个基准测试中更快。

阅读更多
10

已探测到的最大奥尔特云天体:彗星 C/2014 UN 271 (Bernardinelli-Bernstein) 的大小和反照率

2024-11-23
已探测到的最大奥尔特云天体:彗星 C/2014 UN 271 (Bernardinelli-Bernstein) 的大小和反照率

研究人员利用ALMA在扩展配置下测量了奥尔特云彗星C/2014 UN271 (Bernardinelli-Bernstein)的1287微米连续通量,确定其表面等效直径为137±17公里,红色几何反照率为5.3±1.2%。这证实了C/2014 UN271是迄今为止发现的最大的奥尔特云天体,几乎是彗星C/1995 O1 Hale-Bopp的两倍大,也是太阳系中已知的最大彗星(除具有爆发活动的半人马小行星95P/Chiron外)。该天体的反照率与典型彗星相似,进一步证实了彗核反照率的普遍性。

阅读更多
10

SAMURAI:基于运动感知记忆的Segment Anything Model零样本视觉追踪自适应

2024-11-23
SAMURAI:基于运动感知记忆的Segment Anything Model零样本视觉追踪自适应

本文介绍了SAMURAI,一种针对视觉对象跟踪的SAM 2增强型自适应模型。SAM 2在对象分割任务中表现出色,但在视觉对象跟踪方面面临挑战,尤其是在处理快速移动或自遮挡对象的拥挤场景时。SAMURAI通过结合时间运动线索和提出的运动感知记忆选择机制,有效地预测对象运动并改进掩码选择,实现了无需重新训练或微调的鲁棒、准确的跟踪。SAMURAI实时运行,并在各种基准数据集上展现了强大的零样本性能。在评估中,SAMURAI在成功率和精度方面比现有跟踪器有了显著提高,在LaSOT$_{ ext{ext}}$上AUC增益7.1%,在GOT-10k上AO增益3.5%。此外,它在LaSOT上取得了与全监督方法相比具有竞争力的结果。

阅读更多
10
未分类 视觉追踪

WhisperNER:统一开放命名实体识别与语音识别

2024-11-22
WhisperNER:统一开放命名实体识别与语音识别

本文介绍了WhisperNER,一个可以联合进行语音转录和实体识别的模型。该模型支持开放类型的命名实体识别,能够在推理过程中识别多样且不断变化的实体。研究人员利用合成的语音样本增强了一个大型合成数据集,并用NER标签提示模型,对其进行优化以输出转录的语音以及相应的标记实体。实验结果表明,WhisperNER在域外开放类型命名实体识别和监督微调方面均优于自然基线。

阅读更多
12

用三个多边形进行平面密铺问题被证明不可判定

2024-11-20
用三个多边形进行平面密铺问题被证明不可判定

这篇论文证明了使用三个简单多边形对平面进行密铺的问题是co-RE-complete的,因此是不可判定的。无论是否允许反射,找到一种可以使用给定三个多边形的等距变换来密铺整个平面的方案,这个问题的答案无法通过算法确定。这个结果改进了先前需要五个多边形的最佳构造。

阅读更多
13

1比特AI基础设施:第1.1部分,CPU上快速无损的BitNet b1.58推理

2024-11-20
1比特AI基础设施:第1.1部分,CPU上快速无损的BitNet b1.58推理

本文介绍了一种名为"1-bit AI Infra"的软件栈,旨在充分发挥1比特大型语言模型(LLM)的潜力,例如BitNet和BitNet b1.58。该软件栈开发了一套内核,支持在CPU上对三元BitNet b1.58 LLM进行快速且无损的推理。实验结果表明,在x86 CPU和ARM CPU上,该软件栈分别实现了2.37倍至6.17倍和1.37倍至5.07倍的显著加速。

阅读更多
10
未分类 1比特AI CPU推理

如何构建量子超级计算机:扩展挑战与机遇

2024-11-19
如何构建量子超级计算机:扩展挑战与机遇

本文综述了构建量子超级计算机的扩展挑战和机遇。文章指出,量子计算从理论构想发展到如今的小规模演示,取得了显著进展,但通往全面可扩展技术的道路仍不明朗。硬件、制造、软件架构和算法方面存在诸多挑战。文章提出采用现有半导体技术构建更高质量的量子比特、运用系统工程方法以及在异构高性能计算基础设施内进行分布式量子计算,是应对这些挑战的潜在解决方案,并探讨了量子模拟/学习在自然或人工量子系统产生的量子数据方面的应用前景。此外,文章还对量子化学计算进行了资源和敏感性分析,并提出分布式量子辅助概率计算是解决工业级经典优化和机器学习问题的补充途径。

阅读更多
9
未分类

IUMENTA:基于开放数字孪生平台的通用动物数字孪生框架

2024-11-19
IUMENTA:基于开放数字孪生平台的通用动物数字孪生框架

IUMENTA是一个创新的软件框架,旨在构建和模拟动物的数字孪生。它利用开放数字孪生平台(ODTP)的功能和先进的软件传感器,为研究人员提供了一个用户友好的工具,以无缝开发基于动物的数字复制品。该框架建立了一个动态生态系统,整合来自不同实验的见解,从而增强我们对动物行为和生理反应的理解。通过实时跟踪动物的能量平衡,IUMENTA可以深入了解动物的代谢率、营养需求、情绪状态和整体健康状况。本文探讨了IUMENTA框架在开发以动物能量平衡为中心的数字孪生模型中的应用,其中包含了名为EnergyTag的先进可穿戴软件传感器,可以实时监测能量消耗,从而实现对能量平衡数字孪生的持续更新和个性化。

阅读更多
12

LLaVA-o1:让视觉语言模型逐步推理

2024-11-18
LLaVA-o1:让视觉语言模型逐步推理

LLaVA-o1是一种新型视觉语言模型,旨在进行自主多阶段推理,包括总结、视觉解释、逻辑推理和结论生成等步骤。与思维链提示不同,LLaVA-o1独立地进行这些阶段。通过使用10万个训练样本和一种简单的推理时间缩放方法,LLaVA-o1在各种多模态推理基准测试中,不仅比其基础模型提高了8.9%,而且还超过了更大的模型,甚至包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等闭源模型。

阅读更多
15

基于基础模型Agent的可观测性AgentOps分类法

2024-11-18
基于基础模型Agent的可观测性AgentOps分类法

大型语言模型(LLM)质量的不断提高,推动了各种下游任务的发展,导致对AI自动化的需求增加,并激发了人们对开发基于基础模型(FM)的自主Agent的兴趣。随着AI Agent系统处理更复杂的任务并不断发展,它们涉及更广泛的利益相关者,包括Agent用户、Agent系统开发人员和部署人员以及AI模型开发人员。为了构建可靠的AI Agent和LLM应用程序,有必要转向设计AgentOps平台,以确保整个开发到生产生命周期的可观测性和可追溯性。本文综述了AgentOps的必要特性,并提出了Agent生产生命周期中可观测性数据/可追溯性工件的全面概述,强调了可观测性/可追溯性在增强自主Agent系统可靠性方面的关键作用。

阅读更多
17
未分类 AgentOps

是时候在数据中心替换 TCP 了

2024-11-18
是时候在数据中心替换 TCP 了

本文认为TCP协议不适合现代数据中心,其从面向流到有序数据包交付等核心要素都存在问题,这些问题根深蒂固且相互关联,无法修复。作者提出引入新的传输协议来充分利用现代网络的性能潜力,并以Homa为例,展示了创建一个避免TCP所有问题的传输协议的可能性。尽管Homa与TCP的API不兼容,但通过将其与RPC框架集成,Homa仍有望得到广泛应用。

阅读更多
11
未分类

SmoothLLM:防御大型语言模型免受越狱攻击

2024-11-17
SmoothLLM:防御大型语言模型免受越狱攻击

SmoothLLM 是一种旨在防御大型语言模型(LLM)免受越狱攻击的新算法。该算法基于对抗性生成的提示对字符级更改敏感的发现,通过随机扰动给定输入提示的多个副本,然后聚合相应的预测来检测对抗性输入。SmoothLLM 在各种流行的 LLM 中对 GCG、PAIR、RandomSearch 和 AmpleGCG 越狱攻击的防御方面均达到最先进水平,也能够抵抗自适应 GCG 攻击。虽然 SmoothLLM 在鲁棒性和标称性能之间存在小的但不可忽略的权衡,但它与任何 LLM 兼容。

阅读更多
18

人工智能赋能量子计算

2024-11-16
人工智能赋能量子计算

这篇论文综述了人工智能(AI)技术在量子计算(QC)领域的应用。由于量子计算的复杂性和高维度数学特性,AI的数据驱动学习能力使其成为解决量子计算扩展挑战的关键。文章探讨了AI如何改进量子计算的硬件和软件,涵盖了从设备设计到应用的各个方面,并展望了AI在量子计算领域的未来机遇和挑战。

阅读更多
15
未分类 AI赋能

GPTree:基于大型语言模型的决策树实现可解释决策

2024-11-14
GPTree:基于大型语言模型的决策树实现可解释决策

GPTree 框架结合了决策树的可解释性和大型语言模型的推理能力,无需特征工程和提示链,仅需特定任务提示即可利用树形结构动态拆分样本。研究引入专家反馈机制,允许人工干预以改进决策路径。在识别早期“独角兽”初创企业方面,GPTree 的准确率达到 7.8%,优于少样本学习的 gpt-4o 以及最佳人类决策者(3.1% 至 5.6%)。

阅读更多
25
未分类 决策树

为什么现在找工作这么难?“幽灵职位”现象研究

2024-11-14
为什么现在找工作这么难?“幽灵职位”现象研究

本文研究了“幽灵招聘”或“幽灵职位”现象,即雇主发布招聘广告但无意填补空缺。研究利用Glassdoor数据和LLM-BERT技术发现,高达21%的招聘广告可能是幽灵职位,尤其在专业化行业和大公司中更为普遍。这可能是由于发布额外招聘广告和维护人才库的边际成本较低。剔除年度趋势后发现,“幽灵职位”可以解释过去十五年贝弗里奇曲线出现的脱节现象。研究结果表明,政策制定者应该意识到这种做法,因为它会导致严重的求职疲劳并扭曲市场信号。

阅读更多
27

BERT模型也能进行生成式上下文学习

2024-11-14
BERT模型也能进行生成式上下文学习

本文研究发现,通常与因果语言模型(如GPT)相关的上下文学习能力,也出现在掩码语言模型(如DeBERTa)中。通过简单的推理技术,无需额外的训练或架构更改,即可使DeBERTa执行生成任务。评估结果显示,掩码和因果语言模型表现不同,它们在不同任务类别上各有优劣。这些互补的优势表明,该领域对因果模型在上下文学习中的关注可能存在局限性,两种架构都能发展这种能力,但各有优势,这预示着结合两种目标优势的混合方法具有发展前景。

阅读更多
23
未分类 BERT

OpenCoder:顶级代码大型语言模型的开源秘籍

2024-11-09
OpenCoder:顶级代码大型语言模型的开源秘籍

OpenCoder是一个开源的顶级代码大型语言模型,性能媲美领先模型。与以往只发布模型权重和推理代码不同,OpenCoder还开源了可复现的训练数据、完整的数据处理流程、实验结果和详细的训练协议。OpenCoder的关键要素包括:代码优化启发式规则、代码相关文本语料库的召回以及高质量的合成数据。OpenCoder旨在为代码AI研究提供一个开放的平台,加速研究进展。

阅读更多
19
未分类

LoRA 与全量微调:等效的错觉

2024-11-08
LoRA 与全量微调:等效的错觉

本文研究了不同的微调方法如何改变预训练的大型语言模型,特别是低秩自适应 (LoRA) 和全量微调之间的差异。研究发现,尽管 LoRA 在许多任务上可以达到与全量微调相似的性能,但它们的学习到的解并不等效。LoRA 训练的权重矩阵中存在新的、高秩的奇异向量(称为“入侵维度”),而全量微调中不存在。这些“入侵维度”导致 LoRA 模型在预训练分布上的性能下降,并且在顺序适应多个任务时的鲁棒性较差。更高秩、秩稳定的 LoRA 模型更接近全量微调,即使在相同任务上与低秩 LoRA 模型性能相当。研究表明 LoRA 和全量微调访问了参数空间的不同部分,并探讨了“入侵维度”出现的原因、负面影响以及如何将其最小化。

阅读更多
23
未分类

Roaring:一种始终更快、更小的压缩位图

2024-11-08
Roaring:一种始终更快、更小的压缩位图

本文介绍了一种名为Roaring的混合压缩位图索引技术,该技术结合了未压缩位图、压缩数组和行程编码(RLE)压缩段。Roaring在数据库和搜索引擎中表现优异,速度比传统的基于RLE的替代方案(WAH、Concise、EWAH)快几倍(甚至两个数量级),同时压缩效果更好。该技术已被Apache Lucene、Apache Spark、Apache Kylin和Druid等生产平台采用。

阅读更多
25

评估生成模型中隐含的世界模型

2024-11-07
评估生成模型中隐含的世界模型

本文研究了大型语言模型是否隐含地学习了世界模型。作者针对底层现实由确定性有限自动机控制的情况,提出了新的评估指标,并将其应用于游戏、逻辑谜题和导航三个领域。结果表明,尽管生成模型在现有诊断中表现良好,但新的指标揭示了其世界模型远不如表面看起来那么连贯,这种不连贯性会导致模型在处理类似任务时出现严重错误。

阅读更多
21
未分类 评估指标
1 2 3 5 7 8 9 10 11 12