深度学习面试题:数百道涵盖人工智能关键领域的已解决面试题

《深度学习面试题》第二版涵盖了人工智能关键领域中数百道已解决的面试题,旨在帮助机器学习硕士/博士生以及准备面试的人员复习特定主题并提供该领域的全面概述。书中的问题极具挑战性,但以发人深省的问题和引人入胜的故事为框架,能够帮助读者提升技能、自信地回答技术问题并深刻理解面试问题的目的和意义。
阅读更多
《深度学习面试题》第二版涵盖了人工智能关键领域中数百道已解决的面试题,旨在帮助机器学习硕士/博士生以及准备面试的人员复习特定主题并提供该领域的全面概述。书中的问题极具挑战性,但以发人深省的问题和引人入胜的故事为框架,能够帮助读者提升技能、自信地回答技术问题并深刻理解面试问题的目的和意义。
阅读更多
本文介绍了一种名为 MAIA 的多模态自动化可解释性代理系统。MAIA 利用神经模型来自动执行神经模型理解任务,例如特征解释和故障模式发现。它为预训练的视觉语言模型配备了一套工具,支持对其他模型的子组件进行迭代实验,以解释其行为。这些工具通常由人类可解释性研究人员使用,用于合成和编辑输入、从现实世界的数据集中计算最大激活样本,以及总结和描述实验结果。MAIA 提出的可解释性实验组合了这些工具来描述和解释系统行为。
阅读更多
这篇论文回顾了黑洞物理学中量子引力方面的一些最新进展,尤其关注一种预测普朗克质量的准稳态物体存在的可能性,这种物体可能构成暗物质的一部分。
阅读更多
本文分析了2024年5月发生的20年来最强地磁暴对卫星运行的影响。研究发现,此次地磁暴的强度和持续时间预测不准确,导致对卫星的影响评估不足。文章利用卫星阻力衰减特性识别了热层中总的质量密度增强,并通过分析北美防空司令部 (NORAD) 目录中所有低地球轨道卫星的两行轨道根数 (TLE) 数据,观察了大尺度趋势。
阅读更多
文章批判了将大型语言模型(LLM)的工程成就误认为是人类语言能动性的观点,认为这种观点是建立在“语言完备性”和“数据完备性”的错误假设之上的。文章指出,语言并非一个可以被完全建模的独立完整的事物,而是一种行动方式,其本质是具身性、参与性和不确定性,而这些特质是LLM所不具备的。
阅读更多
本文介绍了 SpreadsheetLLM,这是一种为大型语言模型 (LLM) 设计的高效电子表格编码方法。该方法使用 SheetCompressor 编码框架,包含基于结构锚点的压缩、倒排索引翻译和数据格式感知聚合三个模块,显著提高了电子表格理解和推理能力。实验结果表明,SpreadsheetLLM 在电子表格表检测任务中优于传统方法,并在电子表格问答等下游任务中展现出高效性。
阅读更多
这篇论文介绍了一种新的预训练语言模型ELECTRA,它使用了一种名为“替换词检测”的任务来提高效率。与BERT使用掩码预测的方式不同,ELECTRA使用一个生成器网络替换输入文本中的某些词,然后训练一个判别器网络来判断每个词是否被替换。这种方法在相同的计算资源下,能够学习到比BERT更好的上下文表示,尤其在小模型上表现更为突出。
阅读更多
本文介绍了一种名为xLSTMTime的新型长期时间序列预测模型,该模型改进了现有的扩展LSTM(xLSTM)架构。xLSTMTime利用指数门控和改进的记忆结构,在多个真实数据集上超越了Transformer等现有模型。研究结果表明,改进后的循环架构在长期时间序列预测任务中可与基于Transformer的模型相媲美,为时间序列预测领域提供了新的可能性。
阅读更多
这篇论文研究了预训练Transformer模型中各层级的作用。研究发现,Transformer模型的底层和顶层与中间层级不同,但中间层级具有惊人的一致性。文章还发现,某些问题对于跳过层级、以不同于训练顺序运行层级或并行运行层级具有鲁棒性。这些观察表明,即使是冻结的预训练模型,也可以通过跳过层级或并行运行层级来优雅地权衡准确性和延迟。
阅读更多
文章介绍了一种名为LAGRANGE的新型空间引力波天文台设计方案,该方案以更低的成本和更低的风险维持了LISA的所有重要科学目标。LAGRANGE由三个无拖曳航天器组成,位于最稳定的地心结构——地月L3、L4和L5拉格朗日点。该设计采用固定天线,允许与地球持续联系,解决了通信带宽和延迟问题。
阅读更多
这篇论文证明了狄利克雷多项式取大值的频率的新界限。这为长度为$N$的狄利克雷多项式取接近$N^{3/4}$的值提供了改进的估计,这对于与素数和黎曼zeta函数相关的解析数论中的若干估计至关重要。因此,我们推导出零密度估计$N(σ,T)≤T^{30(1-σ)/13+o(1)}$和长度为$x^{17/30+o(1)}$的短区间的素数渐近线。
阅读更多
这篇论文探讨了用四个参数拟合大象的问题。受费米对戴森模型的批评以及冯·诺依曼的名言“给我四个参数,我可以拟合一头大象,再加一个参数,我可以让它的鼻子动起来”的启发,该文首先明确了问题的定义,并在前人尝试的基础上,提出了一种新的拟合方法。
阅读更多
Fenwick 树是一种经典的隐式数据结构,用于存储数组,支持高效地修改元素、访问元素、计算前缀和以及执行前缀和上的前驱搜索。本文介绍了Fenwick 树的几种变体,可以减小其在已知数组元素上限时的空间占用,并可以更快地执行前驱搜索。作者旨在使用这些变体来实现高效的动态位向量,该结构能够在对数时间内执行更新、排序和选择操作,并且空间开销仅为百分之几,优于现有的具有相同目的的数据结构。
阅读更多
本文探讨了自然语言处理中迁移学习的应用,提出了一种将所有基于文本的语言问题转换为文本到文本格式的统一框架。研究比较了不同预训练目标、架构、未标记数据集、迁移方法等因素对数十种语言理解任务的影响。通过结合探索得到的见解、规模和新的“Colossal Clean Crawled Corpus”,文章在总结、问答、文本分类等多个基准测试中取得了最先进的结果。
阅读更多
本文介绍了 WildGaussians,一种能够在复杂环境下进行三维场景重建的新方法。该方法基于三维高斯渲染技术 (3DGS),通过结合强大的 DINO 特征和外观建模模块,有效解决了遮挡和外观变化等问题。实验表明,WildGaussians 在保持 3DGS 实时渲染速度的同时,能够更好地处理野外数据,并在简单架构下超越了 3DGS 和 NeRF 等基准模型。
阅读更多
本文介绍了一种为月球引入坐标时间的相对论框架,并建立了月球和地球坐标时间之间的关系,该关系由位于地球大地水准面和月球赤道的标准钟决定。月球赤道附近的时钟比地球赤道附近的时钟走得更快,在一个月球轨道周期内累积额外 56.02 微秒。这种对不同天体坐标时间速率差异的精确估计,以及使用轨道器上的时钟作为时间传递链路进行的相互比较,对于建立可靠的通信基础设施至关重要,并为星际导航和定位系统奠定基础。
阅读更多
本文以幽默的方式探讨了婴儿命名的学问。作者提出了一个基于博弈论的模型,假设父母是目光短浅且追求独特性的理性人,以此来解释婴儿命名趋势。文中使用了数学模型、数值实验和大型语言模型分析等方法,并对未来的研究方向进行了展望。
阅读更多
这篇论文介绍了一种名为DoLa的新解码策略,用于减少预训练大型语言模型中的幻觉现象,即生成偏离预训练中所见事实的内容。DoLa方法通过对比从较后层和较早层投影到词汇空间得到的logits差异来获得下一个标记的分布,它利用了大型语言模型中的事实性知识通常局限于特定Transformer层这一事实。实验结果表明,DoLa能够更好地呈现事实性知识,减少错误事实的产生,并在多个选择题和开放式生成任务中持续提高真实性。
阅读更多
本文研究了在低延迟代码优化方面的知识差距,特别是针对高频交易(HFT)系统。主要贡献包括创建了低延迟编程库,优化了市场中性统计套利配对交易策略,并在C++中实现了Disruptor模式。该研究提供了实践指南和严格的统计基准测试,交易策略优化显著提高了速度和盈利能力,Disruptor模式相较于传统队列方法也展现出显著的性能提升。
阅读更多
这篇论文探讨了大型语言模型 (LLM) 的推理能力,并将其与几何理解联系起来。研究发现,LLM 中自注意力图的密度与其表达能力之间存在关联,密度越高,表达能力越强。论文通过理论分析和示例证明了这一点,并提供了经验证据,将这一几何框架与增强 LLM 推理能力的最新方法联系起来。
阅读更多
这篇论文介绍了一种在GPU上执行笔画扩展的技术,用于生成表示给定输入路径笔画的轮廓线。该技术采用了一种完全并行的算法,该算法适用于在GPU计算着色器中执行,只需最少的预处理。该方法的输出可以是直线段或圆弧段,两者都非常适合GPU渲染,并且段的数量最少。
阅读更多
文章介绍了一种使用预训练语言模型压缩搜索信息的新方法SLaM压缩,以及基于该方法的搜索模型CoSMo。研究者利用SLaM压缩量化搜索词,创建低维、高效的搜索数据表示,并使用CoSMo仅基于搜索数据准确估算了美国汽车销量和美国流感发病率等现实世界事件。
阅读更多
本文介绍了一个名为Newswire的大规模结构化数据库,该数据库包含了从1878年到1977年间美国270万篇新闻专线文章,文章内容主要来自当地报纸。该数据库通过深度学习管道从大量原始报纸图像扫描中重建,并对文章进行了地理参考、主题标记、命名实体识别和人物消歧等处理,为研究计算语言学、社会科学和数字人文等领域的各种问题提供了宝贵资源。
阅读更多
本文描述了Gerald Edelman在2006年提出的构建意识artifacts路线图。Edelman认为构建这样的artifacts需要经历一系列关键步骤,包括构建能够进行复杂感觉运动控制的机器人、赋予机器人进行自适应行为和学习的能力,以及最终实现类似意识的特性。
阅读更多