深度学习面试题:数百道涵盖人工智能关键领域的已解决面试题

2024-07-27
深度学习面试题:数百道涵盖人工智能关键领域的已解决面试题

《深度学习面试题》第二版涵盖了人工智能关键领域中数百道已解决的面试题,旨在帮助机器学习硕士/博士生以及准备面试的人员复习特定主题并提供该领域的全面概述。书中的问题极具挑战性,但以发人深省的问题和引人入胜的故事为框架,能够帮助读者提升技能、自信地回答技术问题并深刻理解面试问题的目的和意义。

阅读更多
42
未分类

多模态自动化可解释性代理

2024-07-24
多模态自动化可解释性代理

本文介绍了一种名为 MAIA 的多模态自动化可解释性代理系统。MAIA 利用神经模型来自动执行神经模型理解任务,例如特征解释和故障模式发现。它为预训练的视觉语言模型配备了一套工具,支持对其他模型的子组件进行迭代实验,以解释其行为。这些工具通常由人类可解释性研究人员使用,用于合成和编辑输入、从现实世界的数据集中计算最大激活样本,以及总结和描述实验结果。MAIA 提出的可解释性实验组合了这些工具来描述和解释系统行为。

阅读更多
45
未分类

2024年5月Gannon地磁暴期间的卫星阻力分析

2024-07-21
2024年5月Gannon地磁暴期间的卫星阻力分析

本文分析了2024年5月发生的20年来最强地磁暴对卫星运行的影响。研究发现,此次地磁暴的强度和持续时间预测不准确,导致对卫星的影响评估不足。文章利用卫星阻力衰减特性识别了热层中总的质量密度增强,并通过分析北美防空司令部 (NORAD) 目录中所有低地球轨道卫星的两行轨道根数 (TLE) 数据,观察了大尺度趋势。

阅读更多
56
未分类 卫星阻力

大型语言模型究竟在模仿什么?将工程成就误认为人类语言能动性

2024-07-20
大型语言模型究竟在模仿什么?将工程成就误认为人类语言能动性

文章批判了将大型语言模型(LLM)的工程成就误认为是人类语言能动性的观点,认为这种观点是建立在“语言完备性”和“数据完备性”的错误假设之上的。文章指出,语言并非一个可以被完全建模的独立完整的事物,而是一种行动方式,其本质是具身性、参与性和不确定性,而这些特质是LLM所不具备的。

阅读更多
48
未分类 语言能动性

参数化矩阵模型

2024-07-20
参数化矩阵模型

文章介绍了一种称为参数化矩阵模型的通用机器学习算法。与大多数模仿神经元生物学特性的现有机器学习模型不同,参数化矩阵模型使用矩阵方程来模拟量子系统的物理特性。与通常解决物理问题的方式类似,参数化矩阵模型学习导致所需输出的控制方程。参数化矩阵模型可以使用代数、微分或积分关系从经验数据中进行有效训练。虽然最初是为科学计算而设计的,但文章证明了参数化矩阵模型是通用的函数逼近器,可以应用于一般的机器学习问题。

阅读更多
59

SpreadsheetLLM:面向大型语言模型的电子表格编码方法

2024-07-19
SpreadsheetLLM:面向大型语言模型的电子表格编码方法

本文介绍了 SpreadsheetLLM,这是一种为大型语言模型 (LLM) 设计的高效电子表格编码方法。该方法使用 SheetCompressor 编码框架,包含基于结构锚点的压缩、倒排索引翻译和数据格式感知聚合三个模块,显著提高了电子表格理解和推理能力。实验结果表明,SpreadsheetLLM 在电子表格表检测任务中优于传统方法,并在电子表格问答等下游任务中展现出高效性。

阅读更多
55

ELECTRA:以判别器而非生成器的方式预训练文本编码器

2024-07-18
ELECTRA:以判别器而非生成器的方式预训练文本编码器

这篇论文介绍了一种新的预训练语言模型ELECTRA,它使用了一种名为“替换词检测”的任务来提高效率。与BERT使用掩码预测的方式不同,ELECTRA使用一个生成器网络替换输入文本中的某些词,然后训练一个判别器网络来判断每个词是否被替换。这种方法在相同的计算资源下,能够学习到比BERT更好的上下文表示,尤其在小模型上表现更为突出。

阅读更多
52

xLSTMTime:利用xLSTM进行长期时间序列预测

2024-07-16
xLSTMTime:利用xLSTM进行长期时间序列预测

本文介绍了一种名为xLSTMTime的新型长期时间序列预测模型,该模型改进了现有的扩展LSTM(xLSTM)架构。xLSTMTime利用指数门控和改进的记忆结构,在多个真实数据集上超越了Transformer等现有模型。研究结果表明,改进后的循环架构在长期时间序列预测任务中可与基于Transformer的模型相媲美,为时间序列预测领域提供了新的可能性。

阅读更多
59
未分类 时间序列预测

Transformer层级如画家

2024-07-15
Transformer层级如画家

这篇论文研究了预训练Transformer模型中各层级的作用。研究发现,Transformer模型的底层和顶层与中间层级不同,但中间层级具有惊人的一致性。文章还发现,某些问题对于跳过层级、以不同于训练顺序运行层级或并行运行层级具有鲁棒性。这些观察表明,即使是冻结的预训练模型,也可以通过跳过层级或并行运行层级来优雅地权衡准确性和延迟。

阅读更多
51
未分类

LAGRANGE:位于地月拉格朗日点的激光引力波天线

2024-07-15
LAGRANGE:位于地月拉格朗日点的激光引力波天线

文章介绍了一种名为LAGRANGE的新型空间引力波天文台设计方案,该方案以更低的成本和更低的风险维持了LISA的所有重要科学目标。LAGRANGE由三个无拖曳航天器组成,位于最稳定的地心结构——地月L3、L4和L5拉格朗日点。该设计采用固定天线,允许与地球持续联系,解决了通信带宽和延迟问题。

阅读更多
55
未分类 天文台

新的狄利克雷多项式大值估计

2024-07-14
新的狄利克雷多项式大值估计

这篇论文证明了狄利克雷多项式取大值的频率的新界限。这为长度为$N$的狄利克雷多项式取接近$N^{3/4}$的值提供了改进的估计,这对于与素数和黎曼zeta函数相关的解析数论中的若干估计至关重要。因此,我们推导出零密度估计$N(σ,T)≤T^{30(1-σ)/13+o(1)}$和长度为$x^{17/30+o(1)}$的短区间的素数渐近线。

阅读更多
61

用四个非零参数拟合大象

2024-07-14
用四个非零参数拟合大象

这篇论文探讨了用四个参数拟合大象的问题。受费米对戴森模型的批评以及冯·诺依曼的名言“给我四个参数,我可以拟合一头大象,再加一个参数,我可以让它的鼻子动起来”的启发,该文首先明确了问题的定义,并在前人尝试的基础上,提出了一种新的拟合方法。

阅读更多
68
未分类 参数拟合

紧凑型 Fenwick 树在动态排序和选择中的应用

2024-07-14
紧凑型 Fenwick 树在动态排序和选择中的应用

Fenwick 树是一种经典的隐式数据结构,用于存储数组,支持高效地修改元素、访问元素、计算前缀和以及执行前缀和上的前驱搜索。本文介绍了Fenwick 树的几种变体,可以减小其在已知数组元素上限时的空间占用,并可以更快地执行前驱搜索。作者旨在使用这些变体来实现高效的动态位向量,该结构能够在对数时间内执行更新、排序和选择操作,并且空间开销仅为百分之几,优于现有的具有相同目的的数据结构。

阅读更多
45

探索文本到文本统一Transformer迁移学习的极限

2024-07-13
探索文本到文本统一Transformer迁移学习的极限

本文探讨了自然语言处理中迁移学习的应用,提出了一种将所有基于文本的语言问题转换为文本到文本格式的统一框架。研究比较了不同预训练目标、架构、未标记数据集、迁移方法等因素对数十种语言理解任务的影响。通过结合探索得到的见解、规模和新的“Colossal Clean Crawled Corpus”,文章在总结、问答、文本分类等多个基准测试中取得了最先进的结果。

阅读更多
46
未分类 迁移学习

WildGaussians:野外三维高斯渲染

2024-07-12
WildGaussians:野外三维高斯渲染

本文介绍了 WildGaussians,一种能够在复杂环境下进行三维场景重建的新方法。该方法基于三维高斯渲染技术 (3DGS),通过结合强大的 DINO 特征和外观建模模块,有效解决了遮挡和外观变化等问题。实验表明,WildGaussians 在保持 3DGS 实时渲染速度的同时,能够更好地处理野外数据,并在简单架构下超越了 3DGS 和 NeRF 等基准模型。

阅读更多
55
未分类 高斯渲染

建立月球及以外区域坐标时间的相对论框架

2024-07-11
建立月球及以外区域坐标时间的相对论框架

本文介绍了一种为月球引入坐标时间的相对论框架,并建立了月球和地球坐标时间之间的关系,该关系由位于地球大地水准面和月球赤道的标准钟决定。月球赤道附近的时钟比地球赤道附近的时钟走得更快,在一个月球轨道周期内累积额外 56.02 微秒。这种对不同天体坐标时间速率差异的精确估计,以及使用轨道器上的时钟作为时间传递链路进行的相互比较,对于建立可靠的通信基础设施至关重要,并为星际导航和定位系统奠定基础。

阅读更多
47

DoLa:通过对比层解码提高大型语言模型中的事实性

2024-07-10
DoLa:通过对比层解码提高大型语言模型中的事实性

这篇论文介绍了一种名为DoLa的新解码策略,用于减少预训练大型语言模型中的幻觉现象,即生成偏离预训练中所见事实的内容。DoLa方法通过对比从较后层和较早层投影到词汇空间得到的logits差异来获得下一个标记的分布,它利用了大型语言模型中的事实性知识通常局限于特定Transformer层这一事实。实验结果表明,DoLa能够更好地呈现事实性知识,减少错误事实的产生,并在多个选择题和开放式生成任务中持续提高真实性。

阅读更多
55

物理神经网络训练

2024-07-10
物理神经网络训练

物理神经网络 (PNN) 利用物理系统的特性进行计算,是人工智能领域的一个重要机会。PNN 有潜力训练比现有模型大 1000 倍的人工智能模型,并在智能手机或传感器等边缘设备上进行本地和私密的推理。 为了大规模训练 PNN,目前正在探索许多方法,包括基于反向传播和无反向传播的方法,但尚未出现可与深度学习中广泛使用的反向传播算法相媲美的方法。

阅读更多
53
未分类 物理神经网络

深入理解相继式演算

2024-07-09
深入理解相继式演算

这篇论文介绍了λμμ-演算,这是一种用于相继式演算的术语分配系统,由于其对评估上下文的首类表示,它是编译器中间语言的良好基础。作者通过编写一个从小而有趣的表面语言到λμμ-演算的编译器,将其作为编译器中间语言,从而使编译器爱好者和编程语言爱好者更容易理解相继式演算。

阅读更多
57

C++设计模式在低延迟应用和高频交易中的应用

2024-07-08
C++设计模式在低延迟应用和高频交易中的应用

本文研究了在低延迟代码优化方面的知识差距,特别是针对高频交易(HFT)系统。主要贡献包括创建了低延迟编程库,优化了市场中性统计套利配对交易策略,并在C++中实现了Disruptor模式。该研究提供了实践指南和严格的统计基准测试,交易策略优化显著提高了速度和盈利能力,Disruptor模式相较于传统队列方法也展现出显著的性能提升。

阅读更多
51
未分类 低延迟

大型语言模型的推理:几何视角

2024-07-07
大型语言模型的推理:几何视角

这篇论文探讨了大型语言模型 (LLM) 的推理能力,并将其与几何理解联系起来。研究发现,LLM 中自注意力图的密度与其表达能力之间存在关联,密度越高,表达能力越强。论文通过理论分析和示例证明了这一点,并提供了经验证据,将这一几何框架与增强 LLM 推理能力的最新方法联系起来。

阅读更多
52
未分类 几何理解

GPU 友好型笔画扩展

2024-07-06
GPU 友好型笔画扩展

这篇论文介绍了一种在GPU上执行笔画扩展的技术,用于生成表示给定输入路径笔画的轮廓线。该技术采用了一种完全并行的算法,该算法适用于在GPU计算着色器中执行,只需最少的预处理。该方法的输出可以是直线段或圆弧段,两者都非常适合GPU渲染,并且段的数量最少。

阅读更多
71
未分类 笔画扩展

利用语言模型压缩搜索信息

2024-07-02
利用语言模型压缩搜索信息

文章介绍了一种使用预训练语言模型压缩搜索信息的新方法SLaM压缩,以及基于该方法的搜索模型CoSMo。研究者利用SLaM压缩量化搜索词,创建低维、高效的搜索数据表示,并使用CoSMo仅基于搜索数据准确估算了美国汽车销量和美国流感发病率等现实世界事件。

阅读更多
59
未分类 搜索压缩

Newswire:一个涵盖百年历史新闻的大规模结构化数据库

2024-06-30
Newswire:一个涵盖百年历史新闻的大规模结构化数据库

本文介绍了一个名为Newswire的大规模结构化数据库,该数据库包含了从1878年到1977年间美国270万篇新闻专线文章,文章内容主要来自当地报纸。该数据库通过深度学习管道从大量原始报纸图像扫描中重建,并对文章进行了地理参考、主题标记、命名实体识别和人物消歧等处理,为研究计算语言学、社会科学和数字人文等领域的各种问题提供了宝贵资源。

阅读更多
51
未分类 历史新闻

计算生命:结构良好、自我复制的程序如何从简单交互中涌现

2024-06-30
计算生命:结构良好、自我复制的程序如何从简单交互中涌现

这篇论文研究了在缺乏明确适应性环境的情况下,随机的、非自我复制的程序如何通过随机交互和自我修改,在各种简单的编程语言和机器指令集的计算基质中产生自我复制。研究发现,自我复制体的出现会导致更复杂的动态,并展示了一个极简主义编程语言的反例,其中自我复制体可能存在,但尚未被观察到。

阅读更多
49

Edelman构建意识artifacts的步骤

2024-06-30
Edelman构建意识artifacts的步骤

本文描述了Gerald Edelman在2006年提出的构建意识artifacts路线图。Edelman认为构建这样的artifacts需要经历一系列关键步骤,包括构建能够进行复杂感觉运动控制的机器人、赋予机器人进行自适应行为和学习的能力,以及最终实现类似意识的特性。

阅读更多
62
未分类

核钟曙光:钍-229m同质异能跃迁与锶-87原子钟的频率比

2024-06-29
核钟曙光:钍-229m同质异能跃迁与锶-87原子钟的频率比

本文报道了利用真空紫外频率梳直接激发固态氟化钙晶体中钍-229原子核的窄跃迁,并测定了其绝对跃迁频率。通过将频率梳锁定到锶-87原子钟上,实现了核能级与电子能级之间的频率连接,并测量了钍-229核钟跃迁与锶-87原子钟的频率比。研究人员还精确测量了核四极分裂,并提取了同质异能态的内在性质。这些结果标志着基于固态核的光学原子钟的开端,并首次将核钟与原子钟进行了比较。

阅读更多
69
1 2 3 4 5 6 8 10 11 12