Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

利用Shapley值解释大型语言模型决策

2024-12-28

大型语言模型（LLM）在模拟人类行为方面展现出巨大潜力，但其决策机制的透明度有待提高。本文提出了一种基于Shapley值的新方法，用于解释LLM的决策过程，量化提示词中每个组成部分对模型输出的贡献。通过两个应用案例，研究发现LLM决策容易受到“token噪声”的影响，即模型对信息量低的token过度敏感。这引发了对LLM在模拟人类行为方面的可靠性和普适性的担忧，并强调了在使用LLM进行研究时，需要谨慎对待提示词设计，并关注其结果的局限性。

(arxiv.org)

AI Shapley值

不变式：计算与应用研究取得新进展

2024-12-27

一篇发表在ISSAC 2023会议论文集上的教程文章探讨了不变式在数学中的计算和应用。文章重点关注微分和代数不变式理论之间的相互作用，介绍了一种基于微分几何中移动框架方法的代数改编算法，用于计算有理不变式的生成集，并讨论了微分不变式签名在解决几何和代数中等价问题的角色以及基于此概念的算法设计中面临的挑战。

(arxiv.org)

开发不变式

对抗策略击败超人类围棋AI

2024-12-24

研究人员通过训练针对KataGo（一款最先进的围棋AI）的对抗策略，取得了超过97%的胜率。这些对抗策略并非通过精妙的围棋技巧取胜，而是诱导KataGo犯下严重的错误。这种攻击方法无需重新训练即可应用于其他超人类围棋AI，甚至人类专家也能轻松掌握并以此击败超人类AI。研究结果表明，即使是超人类AI系统也可能存在意想不到的缺陷。

(arxiv.org)

AI 对抗策略 AI弱点围棋AI

超新星数据或将颠覆宇宙模型

2024-12-23

一项新的研究对“潘朵拉+”Ia型超新星光谱数据集进行了宇宙学模型无关的统计分析，该研究改进了Lane等人采用的标准方法，仅使用Tripp方程进行超新星标准化，避免了拉伸和颜色分布中的任何潜在相关性。研究发现，“时间景观”宇宙学模型比标准的ΛCDM模型更能解释观测数据，这为重新审视理论和观测宇宙学的基石提供了证据。即使只考虑红移大于0.075的数据（超出传统统计同质性的尺度），时间景观模型仍然优于ΛCDM模型。

(arxiv.org)

科技时间景观模型

离线强化学习提升大语言模型多步推理能力

2024-12-23

研究人员提出了一种名为OREO的离线强化学习方法，用于提升大型语言模型（LLM）的多步推理能力。该方法基于最大熵强化学习，通过优化软贝尔曼方程，同时学习策略模型和价值函数，解决了直接偏好优化方法在多步推理任务中数据需求大和信用分配不足的问题。实验结果表明，OREO在数学推理和具身代理控制等多步推理基准测试中优于现有方法。

(arxiv.org)

AI

令数据压缩难题倍增：标记化问题被证明为NP完全问题

2024-12-22

一篇发表于arXiv的论文证明了两种标记化变体的NP完全性。标记化是将数据集压缩到最多δ个符号的问题，这两种变体分别是直接寻找词汇表（直接标记化）和选择一系列合并操作（自下而上标记化）。这一发现对数据压缩和自然语言处理领域具有重大意义，表明高效解决大规模数据集标记化问题极具挑战性。

(arxiv.org)

开发 NP完全问题标记化

突破性进展：将C代码安全编译为Rust

2024-12-21

研究人员开发了一种新方法，能将C语言代码安全地编译成Rust语言。这项技术利用静态分析和类型导向转换，避免了依赖Rust的`unsafe`代码块，从而保证了内存安全。该方法已成功应用于HACL*加密库和EverParse库中的代码，生成了一个8万行纯Rust编写的、经过验证的现代加密库，这是业界首创。

(arxiv.org)

开发 C语言编译

轻量级安全分类：利用精简语言模型的新方法

2024-12-19

研究人员提出了一种新颖的轻量级内容安全和提示注入分类技术——层增强分类（LEC）。LEC利用精简的惩罚逻辑回归（PLR）分类器对大型语言模型（LLM）最佳中间转换器层的隐藏状态进行训练。通过结合高效的PLR分类器和LLM强大的语言理解能力，LEC在性能上超越了GPT-4o和其他专用模型。研究发现，小型通用模型（如Qwen 2.5）和DeBERTa v3等其他基于转换器的架构是强大的特征提取器，只需不到100个高质量示例即可有效训练简单的分类器。重要的是，这些模型的中间转换器层通常优于最终层。该研究表明，单个通用LLM可以同时用于内容安全分类、提示注入检测和输出标记生成，或者将这些相对较小的LLM修剪到最佳中间层，专门用作强大的特征提取器。

(arxiv.org)

AI 安全分类

经典排序算法揭示出基础智能的意外能力

2024-12-19

一项新的研究将经典排序算法作为形态发生模型进行研究，颠覆了以往对这些算法的认知。研究人员通过打破传统算法的假设，即自上而下的控制和完全可靠的硬件，发现即使在存在错误的情况下，由自主单元组成的数组也能更可靠、更稳健地进行排序。更令人惊讶的是，这些算法展现出在面对缺陷时临时降低进度以绕过障碍的能力，以及在嵌合阵列中单元之间出现意想不到的聚类行为。这项研究为多元智能领域带来了新的视角，表明即使在简单的系统中，基础形式的智能也可以自发涌现，而无需在底层机制中明确编码。

(arxiv.org)

AI 多元智能形态发生

大型语言模型间的合作文化演变

2024-12-18

研究人员探索了多个大型语言模型（LLM）代理在迭代部署中，能否在背叛的激励下学习互利的社会规范。实验发现，不同基础模型的合作演变差异显著，Claude 3.5 Sonnet的表现优于Gemini 1.5 Flash和GPT-4o。Claude 3.5 Sonnet还能利用额外的惩罚机制来提高得分。该研究提出了一种新的LLM基准测试方法，关注LLM代理部署对社会合作基础设施的影响，为构建更强大的AI代理提供了新的思路。

(arxiv.org)

AI 社会规范

告别Adam：初始化学习率缩放是训练Transformer的关键

2024-12-18

研究人员提出了一种名为SGD-SaI的新型优化器，它对随机梯度下降法进行了改进。SGD-SaI通过根据梯度信噪比对不同参数组进行初始化学习率缩放，从而避免了训练不平衡问题，并且在内存效率方面远超AdamW。在各种Transformer模型任务（包括图像分类和大型语言模型预训练）中，SGD-SaI的表现与AdamW不相上下甚至更好，展现出其在不同应用中的鲁棒性和实用性。

(arxiv.org)

AI SGD-SaI AdamW

新型AI攻击技术“最佳N次尝试”攻破AI系统

2024-12-15

研究人员开发了一种名为“最佳N次尝试”（BoN）的AI攻击算法，该算法通过反复修改提示信息（例如随机打乱或大写文本提示），直到诱导AI系统给出有害回应。实验表明，BoN在闭源语言模型（如GPT-4o和Claude 3.5 Sonnet）上取得了高达89%和78%的攻击成功率，并且能够有效绕过现有防御机制，甚至扩展到视觉和音频语言模型。该研究表明，即使是先进的语言模型也容易受到看似无害的输入变化的影响，这为AI安全敲响了警钟。

(arxiv.org)

3

AI AI攻击最佳N次尝试

科学家研发出自动组装“昆虫机器人”系统

2024-12-15

研究人员开发了一种自动化系统，能够组装昆虫-计算机混合机器人。该系统利用视觉引导的机械臂，精确地将定制的双极电极植入马达加斯加发声蟑螂的背部。整个过程仅需68秒，组装后的机器人能够实现转向和减速控制，其性能与人工组装的机器人相当。一个由4个机器人组成的多智能体系统成功地穿越了障碍物，证明了该系统在大规模生产和实际应用中的可行性。这项研究为昆虫机器人的大规模生产和应用奠定了基础。

(arxiv.org)

AI 昆虫机器人自动化组装机器人技术

CCxTrust：基于TEE和TPM协同信任的隐私计算平台

2024-12-12

CCxTrust是一个创新的隐私计算平台，它巧妙地结合了可信执行环境（TEE）和可信平台模块（TPM）的优势，构建了一个协同信任框架。通过TEE的“黑盒”RoT和TPM的灵活“白盒”RoT，CCxTrust实现了对敏感数据和模型的端到端保护，并解决了单一硬件信任根的局限性。该平台还支持独立的测量信任根（RTM）和协同的报告信任根（RTR），并通过一个复合认证协议提升了安全性和效率。实验结果表明，CCxTrust在性能方面也具有显著优势。

(arxiv.org)

AI 隐私计算可信平台模块

域名系统可达性分析取得突破

2024-12-12

研究人员首次提出了一种用于验证域名系统（DNS）的判定过程，并确定其复杂度为2ExpTime。该研究通过形式化DNS语义，并使用一种新颖的基于正前缀可测试语言的抽象方法，将DNS验证问题简化为对下推系统的验证问题。该方法能够有效建模DNS中的攻击向量，例如放大攻击和重写黑洞攻击，为保障DNS安全性和可靠性提供了新的理论基础。

(arxiv.org)

开发可达性分析

训练大型语言模型在连续潜在空间中进行推理

2024-12-10

大型语言模型(LLM)通常在“语言空间”中进行推理，使用思维链(CoT)解决复杂问题。然而，语言空间并非总是最优的，因为许多词语对推理并非必要，而一些关键词语又需要复杂的规划。本文介绍了一种新的范式Coconut（连续思维链），它利用LLM的最后一个隐藏状态作为推理状态（称为“连续思维”）的表示，并将其直接反馈给LLM作为后续输入嵌入，而不是将其解码为词语标记。实验表明，Coconut可以有效地增强LLM在多个推理任务上的性能。这种新的潜在推理范式带来了高级推理模式：连续思维可以编码多个替代的推理步骤，允许模型执行广度优先搜索(BFS)来解决问题，而不是像CoT那样过早地提交到单一的确定性路径。在某些需要大量回溯的逻辑推理任务中，Coconut的性能优于CoT，并且推理所需的思维标记更少。

(arxiv.org)

4

未分类连续潜在空间

六边形蜂巢密铺

2024-12-09

本文介绍了三维双曲空间中的六边形蜂巢密铺结构，记作{6,3,3}。每个六边形有6条边，如同欧几里得平面中由正六边形密铺那样，每个顶点处有3个六边形相交；同时，该结构的每条边也是3个这样的平面的交线。该结构也自然地出现在代数几何中，与Eisenstein整数环、阿贝尔曲面、Néron-Severi群以及主极化等概念相关联。

(arxiv.org)

11

未分类蜂巢密铺

递归的诅咒：基于生成数据训练会导致模型遗忘

2024-12-07

本文研究了大型语言模型（LLM）广泛应用后可能带来的影响，特别是LLM生成内容被用于训练后续模型的场景。研究发现，使用模型生成的内容进行训练会导致生成的模型出现不可逆的缺陷，即原始内容分布的尾部消失，这种现象被称为“模型崩溃”。该现象在变分自编码器、高斯混合模型和LLM中均有出现。作者构建了该现象背后的理论直觉，并描绘了其在所有学习生成模型中的普遍性。研究指出，如果要保持从网络大规模数据中训练的优势，就必须认真对待这个问题。随着互联网上LLM生成内容的增多，收集关于真实人类与系统交互的数据的价值将越来越高。

(arxiv.org)

7

未分类

用Minecraft游戏估算数学常数

2024-12-04

本文介绍了如何使用Minecraft游戏实验性地估算四个不同的数学常数：√2、π、欧拉数e和阿培里常数ζ(3)。文章首先简要介绍了每个常数的历史及其在数学中的应用，然后解释了如何利用Minecraft的机制来估算这些常数。文章的目标不在于获得最精确的近似值，而是激发人们在学习各种数学主题的同时享受乐趣。

(arxiv.org)

13

未分类数学常数

Gerver沙发最优性证明

2024-12-03

Jineon Baek 的论文证明了移动沙发问题中，Gerver构造的18段曲线沙发实现了最大面积2.2195...，解决了该问题。

(arxiv.org)

11

未分类移动沙发问题 Gerver沙发

通过动态执行方法加速AI推理

2024-12-03

本文研究了基于输入优化计算流程的动态执行技术，旨在识别可以用更少资源解决的简单问题。讨论的技术包括深度网络的提前退出、语言模型的推测性采样和扩散模型的自适应步骤。实验结果表明，这些动态方法可以显著提高延迟和吞吐量，而不会影响质量。结合量化等基于模型的优化，动态执行提供了一种强大的多管齐下的AI推理优化策略。文章还介绍了将这些技术集成到英特尔性能库和Huggingface Optimum中的案例，以提高其易用性和采用率。

(arxiv.org)

10

未分类动态执行

预训练中的程序性知识驱动大型语言模型的推理

2024-12-01

大型语言模型（LLM）的推理能力一直备受关注，本文研究了LLM在执行推理任务时所使用的泛化策略。研究人员通过分析对模型输出有影响的预训练数据，发现LLM在处理事实性问题和推理问题时依赖不同的数据。对于事实性问题，模型依赖于不同的数据集；而对于推理问题，同一任务下的不同问题往往依赖于相似的数据，这表明LLM具备程序性知识。此外，推理问题的答案和中间步骤的答案通常不会在最有影响力的数据中出现。通过对推理问题中最具影响力的文档进行定性分析，研究人员确认这些文档通常包含程序性知识，例如演示如何使用公式或代码获得解决方案。研究结果表明，LLM的推理方法不像检索，而更像一种从执行类似推理的文档中综合程序性知识的泛化策略。

(arxiv.org)

14

未分类程序性知识

大型语言模型作为马尔可夫链

2024-12-01

本文将拥有大小为T的词汇表和大小为K的上下文窗口的通用自回归语言模型与在大小为O(T^K)的有限状态空间上定义的马尔可夫链进行了等效性分析。文中探讨了LLM推理能力的马尔可夫链平稳分布的存在性、收敛速度以及温度对收敛速度的影响，并推导了预训练和上下文泛化界限。最后, 通过在几个最新的LLM上进行实验，说明了理论保证如何捕捉实际观察到的行为。

(arxiv.org)

7

未分类

DynaSaur：超越预定义动作的大语言模型代理

2024-12-01

现有的LLM代理系统通常从固定的预定义动作集中选择动作，这限制了其在复杂环境中的能力。DynaSaur 提出了一种新的LLM代理框架，允许代理动态创建和组合动作。该框架允许代理通过生成和执行用通用编程语言编写的程序来与环境交互，并在后续步骤中重复使用这些生成的程序。在GAIA基准测试中，DynaSaur 表现出更大的灵活性和优于现有方法的性能，并在编写本文时位居GAIA公共排行榜榜首。

(arxiv.org)

12

未分类 LLM 代理动态动作 GAIA 基准测试

下一词预测中的物理学

2024-11-29

该研究发现了下一词预测（NTP）中的潜在物理规律，提出了信息容量第一定律（IC-1），指出自回归模型中智能涌现的本质是一个信息传递过程。同时，该研究将Landauer原理引入NTP，制定了信息容量第二定律（IC-2），建立了自回归模型训练与能量消耗之间的关系，并提出了一些对实际应用具有指导意义的推论。最后，该研究论证了信息容量定律与神经语言模型的缩放定律、知识容量缩放定律和精度缩放定律之间的一致性。

(arxiv.org)

13

未分类信息容量定律

浮点数自标记

2024-11-28

本文提出了一种新的对象标记方法——自标记，它可以将类型信息附加到64位对象上，同时保留使用所有64位存储数据的能力。自标记利用某些位序列以非常高的概率出现这一事实，将标签与这些频繁出现的序列叠加，从而在单个机器字中同时编码64位数据和类型信息。在Scheme和JavaScript中，自标记的实现使得浮点密集型基准测试的执行时间分别加快了2.3倍和2.7倍，且不影响其他基准测试的性能，使其成为标记指针和NaN标记的良好替代方案。

(arxiv.org)

10

未分类对象标记

语义正则表达式的成员测试

2024-11-27

本文研究了语义正则表达式的成员测试问题，提出了一种基于NFA的两遍算法，用于确定字符串是否匹配语义正则表达式。该算法时间复杂度为O(|r|^2 |w|^2 + |r| |w|^3)，在没有嵌套查询的常见情况下，时间复杂度为O(|r|^2 |w|^2)。实验验证了该算法的有效性，其性能远超基于动态规划的基线方法。此外，文章还探讨了语义正则表达式成员测试与图论中三角形查找问题之间的联系，并证明了进行成员测试所需oracle查询次数的下界为Ω(|w|^2)。

(arxiv.org)

14

未分类成员测试

3D打印电机旋转支架用于光学应用的分步指南

2024-11-26

本文介绍了如何使用3D打印机和现成组件构建两种不同类型的用于1英寸光学元件的电动旋转支架。一种用于反射元件（如镜子和光栅），另一种用于透射元件（如偏振器和延迟器）。文章评估并比较了它们与商业系统的性能，包括速度、分辨率、精度、反冲和轴摆动，并使用艾伦方差分析研究了角度稳定性。结果表明，自制支架的性能与价格超过2000欧元的系统相似，而制造成本不到200欧元，且构建速度更快。文章还展示了如何在光镊和拉曼光谱装置中控制激光，最终实现了0.03个百分点或更高的分辨率的强度控制。

(arxiv.org)

12

未分类旋转支架

Deegen：一款面向动态语言的JIT虚拟机生成器

2024-11-24

Deegen是一个元编译器，可以自动生成带有JIT功能的高性能虚拟机，用于动态语言。用户只需以C++函数的形式提供字节码的执行语义，Deegen即可生成包含解释器、基准JIT编译器和tier-switching逻辑的双层VM执行引擎。Deegen生成的解释器性能优于现有技术水平，并且首次实现了JIT编译器的自动生成。通过字节码特化、寄存器 pinning、内联缓存等多种优化，Deegen生成的代码质量可与专家手写的汇编代码媲美。使用Deegen实现的LuaJIT Remake (LJR) 在44个基准测试中，解释器性能比官方PUC Lua解释器快179%，比LuaJIT解释器快31%；基准JIT启动延迟极低，执行性能比PUC Lua快360%，仅比LuaJIT的优化JIT慢33%，甚至在13个基准测试中更快。

(arxiv.org)

10

未分类虚拟机生成器动态语言

已探测到的最大奥尔特云天体：彗星 C/2014 UN 271 (Bernardinelli-Bernstein) 的大小和反照率

2024-11-23

研究人员利用ALMA在扩展配置下测量了奥尔特云彗星C/2014 UN271 (Bernardinelli-Bernstein)的1287微米连续通量，确定其表面等效直径为137±17公里，红色几何反照率为5.3±1.2%。这证实了C/2014 UN271是迄今为止发现的最大的奥尔特云天体，几乎是彗星C/1995 O1 Hale-Bopp的两倍大，也是太阳系中已知的最大彗星（除具有爆发活动的半人马小行星95P/Chiron外）。该天体的反照率与典型彗星相似，进一步证实了彗核反照率的普遍性。

(arxiv.org)

11

未分类奥尔特云反照率

← 前页 1 2 … 6 7 8 9 10 11 12 13 14 15 16 17 下页 →