搜索技巧 核手提箱 海洋云增白 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics 儿童读物 化学 连续滚动 代码审查 KDE 游戏测试 多动症 超级计算机 植物学 三菱电机 更多

SpreadsheetLLM:面向大型语言模型的电子表格编码方法 (arxiv.org)

本文介绍了 SpreadsheetLLM,这是一种为大型语言模型 (LLM) 设计的高效电子表格编码方法。该方法使用 SheetCompressor 编码框架,包含基于结构锚点的压缩、倒排索引翻译和数据格式感知聚合三个模块,显著提高了电子表格理解和推理能力。实验结果表明,SpreadsheetLLM 在电子表格表检测任务中优于传统方法,并在电子表格问答等下游任务中展现出高效性。

ELECTRA:以判别器而非生成器的方式预训练文本编码器 (arxiv.org)

这篇论文介绍了一种新的预训练语言模型ELECTRA,它使用了一种名为“替换词检测”的任务来提高效率。与BERT使用掩码预测的方式不同,ELECTRA使用一个生成器网络替换输入文本中的某些词,然后训练一个判别器网络来判断每个词是否被替换。这种方法在相同的计算资源下,能够学习到比BERT更好的上下文表示,尤其在小模型上表现更为突出。

xLSTMTime:利用xLSTM进行长期时间序列预测 (arxiv.org)

本文介绍了一种名为xLSTMTime的新型长期时间序列预测模型,该模型改进了现有的扩展LSTM(xLSTM)架构。xLSTMTime利用指数门控和改进的记忆结构,在多个真实数据集上超越了Transformer等现有模型。研究结果表明,改进后的循环架构在长期时间序列预测任务中可与基于Transformer的模型相媲美,为时间序列预测领域提供了新的可能性。

Transformer层级如画家 (arxiv.org)

这篇论文研究了预训练Transformer模型中各层级的作用。研究发现,Transformer模型的底层和顶层与中间层级不同,但中间层级具有惊人的一致性。文章还发现,某些问题对于跳过层级、以不同于训练顺序运行层级或并行运行层级具有鲁棒性。这些观察表明,即使是冻结的预训练模型,也可以通过跳过层级或并行运行层级来优雅地权衡准确性和延迟。

LAGRANGE:位于地月拉格朗日点的激光引力波天线 (arxiv.org)

文章介绍了一种名为LAGRANGE的新型空间引力波天文台设计方案,该方案以更低的成本和更低的风险维持了LISA的所有重要科学目标。LAGRANGE由三个无拖曳航天器组成,位于最稳定的地心结构——地月L3、L4和L5拉格朗日点。该设计采用固定天线,允许与地球持续联系,解决了通信带宽和延迟问题。

新的狄利克雷多项式大值估计 (arxiv.org)

这篇论文证明了狄利克雷多项式取大值的频率的新界限。这为长度为$N$的狄利克雷多项式取接近$N^{3/4}$的值提供了改进的估计,这对于与素数和黎曼zeta函数相关的解析数论中的若干估计至关重要。因此,我们推导出零密度估计$N(σ,T)≤T^{30(1-σ)/13+o(1)}$和长度为$x^{17/30+o(1)}$的短区间的素数渐近线。

用四个非零参数拟合大象 (arxiv.org)

这篇论文探讨了用四个参数拟合大象的问题。受费米对戴森模型的批评以及冯·诺依曼的名言“给我四个参数,我可以拟合一头大象,再加一个参数,我可以让它的鼻子动起来”的启发,该文首先明确了问题的定义,并在前人尝试的基础上,提出了一种新的拟合方法。

紧凑型 Fenwick 树在动态排序和选择中的应用 (arxiv.org)

Fenwick 树是一种经典的隐式数据结构,用于存储数组,支持高效地修改元素、访问元素、计算前缀和以及执行前缀和上的前驱搜索。本文介绍了Fenwick 树的几种变体,可以减小其在已知数组元素上限时的空间占用,并可以更快地执行前驱搜索。作者旨在使用这些变体来实现高效的动态位向量,该结构能够在对数时间内执行更新、排序和选择操作,并且空间开销仅为百分之几,优于现有的具有相同目的的数据结构。

探索文本到文本统一Transformer迁移学习的极限 (arxiv.org)

本文探讨了自然语言处理中迁移学习的应用,提出了一种将所有基于文本的语言问题转换为文本到文本格式的统一框架。研究比较了不同预训练目标、架构、未标记数据集、迁移方法等因素对数十种语言理解任务的影响。通过结合探索得到的见解、规模和新的“Colossal Clean Crawled Corpus”,文章在总结、问答、文本分类等多个基准测试中取得了最先进的结果。

WildGaussians:野外三维高斯渲染 (arxiv.org)

本文介绍了 WildGaussians,一种能够在复杂环境下进行三维场景重建的新方法。该方法基于三维高斯渲染技术 (3DGS),通过结合强大的 DINO 特征和外观建模模块,有效解决了遮挡和外观变化等问题。实验表明,WildGaussians 在保持 3DGS 实时渲染速度的同时,能够更好地处理野外数据,并在简单架构下超越了 3DGS 和 NeRF 等基准模型。

建立月球及以外区域坐标时间的相对论框架 (arxiv.org)

本文介绍了一种为月球引入坐标时间的相对论框架,并建立了月球和地球坐标时间之间的关系,该关系由位于地球大地水准面和月球赤道的标准钟决定。月球赤道附近的时钟比地球赤道附近的时钟走得更快,在一个月球轨道周期内累积额外 56.02 微秒。这种对不同天体坐标时间速率差异的精确估计,以及使用轨道器上的时钟作为时间传递链路进行的相互比较,对于建立可靠的通信基础设施至关重要,并为星际导航和定位系统奠定基础。

凯瑟琳的盛宴:婴儿命名的博弈论 (arxiv.org)

本文以幽默的方式探讨了婴儿命名的学问。作者提出了一个基于博弈论的模型,假设父母是目光短浅且追求独特性的理性人,以此来解释婴儿命名趋势。文中使用了数学模型、数值实验和大型语言模型分析等方法,并对未来的研究方向进行了展望。

DoLa:通过对比层解码提高大型语言模型中的事实性 (arxiv.org)

这篇论文介绍了一种名为DoLa的新解码策略,用于减少预训练大型语言模型中的幻觉现象,即生成偏离预训练中所见事实的内容。DoLa方法通过对比从较后层和较早层投影到词汇空间得到的logits差异来获得下一个标记的分布,它利用了大型语言模型中的事实性知识通常局限于特定Transformer层这一事实。实验结果表明,DoLa能够更好地呈现事实性知识,减少错误事实的产生,并在多个选择题和开放式生成任务中持续提高真实性。

物理神经网络训练 (arxiv.org)

物理神经网络 (PNN) 利用物理系统的特性进行计算,是人工智能领域的一个重要机会。PNN 有潜力训练比现有模型大 1000 倍的人工智能模型,并在智能手机或传感器等边缘设备上进行本地和私密的推理。 为了大规模训练 PNN,目前正在探索许多方法,包括基于反向传播和无反向传播的方法,但尚未出现可与深度学习中广泛使用的反向传播算法相媲美的方法。

深入理解相继式演算 (arxiv.org)

这篇论文介绍了λμμ-演算,这是一种用于相继式演算的术语分配系统,由于其对评估上下文的首类表示,它是编译器中间语言的良好基础。作者通过编写一个从小而有趣的表面语言到λμμ-演算的编译器,将其作为编译器中间语言,从而使编译器爱好者和编程语言爱好者更容易理解相继式演算。

C++设计模式在低延迟应用和高频交易中的应用 (arxiv.org)

本文研究了在低延迟代码优化方面的知识差距,特别是针对高频交易(HFT)系统。主要贡献包括创建了低延迟编程库,优化了市场中性统计套利配对交易策略,并在C++中实现了Disruptor模式。该研究提供了实践指南和严格的统计基准测试,交易策略优化显著提高了速度和盈利能力,Disruptor模式相较于传统队列方法也展现出显著的性能提升。

大型语言模型的推理:几何视角 (arxiv.org)

这篇论文探讨了大型语言模型 (LLM) 的推理能力,并将其与几何理解联系起来。研究发现,LLM 中自注意力图的密度与其表达能力之间存在关联,密度越高,表达能力越强。论文通过理论分析和示例证明了这一点,并提供了经验证据,将这一几何框架与增强 LLM 推理能力的最新方法联系起来。

GPU 友好型笔画扩展 (arxiv.org)

这篇论文介绍了一种在GPU上执行笔画扩展的技术,用于生成表示给定输入路径笔画的轮廓线。该技术采用了一种完全并行的算法,该算法适用于在GPU计算着色器中执行,只需最少的预处理。该方法的输出可以是直线段或圆弧段,两者都非常适合GPU渲染,并且段的数量最少。

图灵是否证明了停机问题的不可判定性? (arxiv.org)

这篇论文探讨了通常认为图灵在 1936 年的论文“论可计算数...”中证明了停机问题的可计算不可判定性的说法是否准确,最终得出了一个细致的结论。

利用语言模型压缩搜索信息 (arxiv.org)

文章介绍了一种使用预训练语言模型压缩搜索信息的新方法SLaM压缩,以及基于该方法的搜索模型CoSMo。研究者利用SLaM压缩量化搜索词,创建低维、高效的搜索数据表示,并使用CoSMo仅基于搜索数据准确估算了美国汽车销量和美国流感发病率等现实世界事件。

Newswire:一个涵盖百年历史新闻的大规模结构化数据库 (arxiv.org)

本文介绍了一个名为Newswire的大规模结构化数据库,该数据库包含了从1878年到1977年间美国270万篇新闻专线文章,文章内容主要来自当地报纸。该数据库通过深度学习管道从大量原始报纸图像扫描中重建,并对文章进行了地理参考、主题标记、命名实体识别和人物消歧等处理,为研究计算语言学、社会科学和数字人文等领域的各种问题提供了宝贵资源。

计算生命:结构良好、自我复制的程序如何从简单交互中涌现 (arxiv.org)

这篇论文研究了在缺乏明确适应性环境的情况下,随机的、非自我复制的程序如何通过随机交互和自我修改,在各种简单的编程语言和机器指令集的计算基质中产生自我复制。研究发现,自我复制体的出现会导致更复杂的动态,并展示了一个极简主义编程语言的反例,其中自我复制体可能存在,但尚未被观察到。

Edelman构建意识artifacts的步骤 (arxiv.org)

本文描述了Gerald Edelman在2006年提出的构建意识artifacts路线图。Edelman认为构建这样的artifacts需要经历一系列关键步骤,包括构建能够进行复杂感觉运动控制的机器人、赋予机器人进行自适应行为和学习的能力,以及最终实现类似意识的特性。

核钟曙光:钍-229m同质异能跃迁与锶-87原子钟的频率比 (arxiv.org)

本文报道了利用真空紫外频率梳直接激发固态氟化钙晶体中钍-229原子核的窄跃迁,并测定了其绝对跃迁频率。通过将频率梳锁定到锶-87原子钟上,实现了核能级与电子能级之间的频率连接,并测量了钍-229核钟跃迁与锶-87原子钟的频率比。研究人员还精确测量了核四极分裂,并提取了同质异能态的内在性质。这些结果标志着基于固态核的光学原子钟的开端,并首次将核钟与原子钟进行了比较。

从人造针到真实草垛:通过合成数据微调提高大型语言模型的检索能力 (arxiv.org)

大型语言模型在处理长文本输入时,在准确检索信息和保持推理能力方面存在不足。为解决这些限制,研究人员提出了一种利用精心设计的合成数据集进行微调的方法,该数据集包含数字键值检索任务。在 GPT-3.5 Turbo 和 Mistral 7B 等模型上进行的实验表明,在该数据集上微调大型语言模型可以显著提高其在较长上下文环境中的信息检索和推理能力。

使用弦图的范畴论 (arxiv.org)

这篇文章探讨了使用弦图来表示范畴论的概念和证明。作者认为,传统的基于等式的范畴论计算方法虽然有很多优点,但在转换为等式推理风格时会牺牲掉有用的类型信息,而传统的图表粘贴证明方法虽然保留了类型信息,但在表达推理过程方面却比较笨拙。弦图作为一种图形化表示方法,能够同时保留类型信息和清晰的推理过程,它能够以拓扑学的视角来解释范畴论的证明,并简洁地处理函子性和自然性条件。作者在文章中使用了大量的示例,系统地应用弦图技术来解释范畴论的各个方面,包括伴随函子、单子、Kan扩展、极限和余极限等。

ELIZA 重新解读:世界上第一个聊天机器人根本就不是聊天机器人 (arxiv.org)

本文重新解读了 ELIZA,普遍认为是世界上第一个聊天机器人,由约瑟夫·魏岑鲍姆在 20 世纪 60 年代初编写。魏岑鲍姆并非有意发明聊天机器人,而是想构建一个平台,用于研究人机对话以及解释和误解的重要认知过程。由于 ELIZA 的诞生恰逢其时,以及它意外流传到外界,它的目的被掩盖了。本文提供了 ELIZA 诞生的丰富历史背景,证明了 ELIZA 是人工智能技术史上一些中心线索交汇的产物。

基于递归图二分的图和索引压缩 (arxiv.org)

本文研究了图重新排序技术如何用于改进图和倒排索引的压缩。文章扩展了Chierichetti等人(KDD 2009)提出的图压缩理论模型,并展示了如何将其用于对社交网络和Web图进行压缩友好的重新排序,以及如何在倒排索引中分配文档标识符。文章设计并实现了一种基于递归图二分的新型理论重排序算法,实验结果表明,该算法比现有启发式算法显著提高了图和索引的压缩率。

磷灰石和铜蓝混合物中超导性的迹象 (arxiv.org)

该研究通过向磷灰石框架中大量掺杂硫,合成了一种主要由变体磷灰石和铜蓝(硫化铜)组成的新型混合物。磁性测量表明,在260K附近出现明显的抗磁性,并在30K以下急剧下降,这意味着两种超导相共存。电学测量表明,电流-电压曲线偏离了正常的线性形状,表明存在零电阻效应。这些奇异的磁学和电学特征强烈表明,变体磷灰石和铜蓝这两种成分分别在接近室温和低温下触发了两种超导相。

木星大红斑的起源 (arxiv.org)

木星大红斑是太阳系行星中最大、存在时间最长的漩涡,但其寿命和形成机制仍是未解之谜。文章研究表明,早在1665年至1713年间观测到的“永久斑点”不太可能对应于1831年首次观测到的大红斑。数值模拟结果排除了大红斑由漩涡合并或超级风暴形成的可能性,而更可能是由其南北两侧相反的木星纬向射流之间的流动扰动形成的。

← 前页 1 3 4 5