Sapiens:人类视觉模型的基础

2024-08-28
Sapiens:人类视觉模型的基础

Sapiens是一系列用于人类视觉任务的模型,包括二维姿态估计、身体部位分割、深度估计和表面法线预测。这些模型在超过3亿张人类图像上进行了预训练,只需微调即可轻松适应不同的任务。Sapiens在各种人类视觉基准测试中始终优于现有模型,并在Humans-5K(姿态)、Humans-2K(部位分割)、Hi4D(深度)和THuman2(法线)等方面取得了显著的性能提升。

阅读更多
57
未分类 姿态估计

独特性偏差:为何重要,如何抑制

2024-08-20
独特性偏差:为何重要,如何抑制

本文探讨了“独特性偏差”,一种将决策视为独一无二的规划者和管理者倾向的行为偏差。研究首次将独特性偏差与现实世界项目投资决策中的预测准确性和绩效相关联。文章指出将项目视为独特的传统框架会导致项目绩效不佳,并通过对219个项目的样本进行测试,发现感知到的独特性与低绩效之间确实存在高度的统计学意义上的关联。最后,文章指出决策者可以通过“决策卫生”来减轻项目中的独特性偏差,特别是参考类别预测、事后分析、基于相似性的预测和噪音审计。

阅读更多
44
未分类 行为偏差

用遮罩和扩散模型取代相机镜头

2024-08-18
用遮罩和扩散模型取代相机镜头

这篇文章介绍了一种名为DifuzCam的全新相机设计,它用遮罩和扩散模型取代了传统的相机镜头。这种设计通过预先训练的扩散模型和控制网络,从传感器捕捉到的原始数据中重建图像,从而显著减小了相机尺寸和重量,并实现了高质量成像。此外,DifuzCam还可以利用场景的文本描述来进一步增强重建效果。

阅读更多
56
未分类 图像重建

树形注意力机制:面向GPU集群的长上下文注意力拓扑感知解码

2024-08-12
树形注意力机制:面向GPU集群的长上下文注意力拓扑感知解码

这篇论文介绍了树形注意力机制,一种在GPU集群上进行长上下文注意力计算的新方法。该方法通过将注意力计算并行化,并利用树形结构减少跨设备通信,从而显著提高了计算效率。实验结果表明,树形注意力机制比其他方法(如环形注意力机制)快8倍,同时所需的通信量更少,峰值内存占用也更低。

阅读更多
52
未分类

OpenDevin:面向人工智能软件开发人员的开放平台

2024-08-11
OpenDevin:面向人工智能软件开发人员的开放平台

OpenDevin 是一个面向 AI 软件开发人员的开放平台,允许开发人员像人类开发者一样通过编写代码、与命令行交互和浏览网页来与世界进行交互。该平台支持新代理的实现、与沙盒环境的安全交互以执行代码、多个代理之间的协调以及评估基准的合并。

阅读更多
44
未分类

GPUDrive:百万帧率的数据驱动多智能体驾驶模拟

2024-08-09
GPUDrive:百万帧率的数据驱动多智能体驾驶模拟

GPUDrive是一个基于Madrona游戏引擎构建的GPU加速多智能体模拟器,每秒可生成超过一百万步的体验,用于研究大规模多智能体规划。它允许用户直接在C++中编写观察、奖励和动力学函数,以定义复杂、异构的智能体行为。研究表明,使用GPUDrive可以在Waymo Motion数据集的多个场景中有效地训练强化学习智能体,在几分钟内就能为单个场景生成高效的目标达成智能体,并在几小时内生成具有普遍能力的智能体。

阅读更多
57
未分类 多智能体

自压缩神经网络

2024-08-05
自压缩神经网络

本文介绍了一种名为“自压缩”的神经网络压缩方法,旨在减少神经网络的大小,从而降低其执行时间、功耗、带宽和内存占用。该方法通过一个通用损失函数来最小化网络的整体大小,同时实现两个目标:移除冗余权重和减少表示剩余权重所需的比特数。实验结果表明,该方法能够在保持浮点精度的同时,将网络的比特数减少到3%,权重数量减少到18%。

阅读更多
50
未分类

验证者-证明者博弈提高大型语言模型输出的可读性

2024-08-04
验证者-证明者博弈提高大型语言模型输出的可读性

为了提高大型语言模型输出结果的可信度,文章提出了一种基于验证者-证明者博弈的训练算法,旨在提高模型输出的可读性。该算法通过训练小型验证器来预测解决方案的正确性,并使用“乐于助人”的证明者生成验证器认可的正确解决方案,以及使用“狡猾”的证明者生成欺骗验证器的错误解决方案,从而迭代地训练模型。实验结果表明,这种训练方法能够提高“乐于助人”证明者的准确性和验证器对对抗性攻击的鲁棒性,并有效提高了模型输出对人类的可读性。

阅读更多
48

论数字计算机上电路和波动方程解的不可计算性的不可检测性及其不可计算性程度

2024-08-04
论数字计算机上电路和波动方程解的不可计算性的不可检测性及其不可计算性程度

该论文探讨了图灵机无法计算的数学问题的不可计算性,例如连续可微函数的一阶导数计算。文章使用郑-魏劳赫分层法对一阶导数的不可计算性进行了分类,并研究了图灵机是否可以通过观察问题数据来检测这种不可计算性。研究结果表明,对于简单模拟电路的输入-输出行为计算和三维波动方程的解,图灵机无法检测到一阶导数的不可计算性,甚至无法检测到其上界。

阅读更多
50
未分类 不可计算性

D-Bot:基于大型语言模型的数据库诊断系统

2024-08-04
D-Bot:基于大型语言模型的数据库诊断系统

D-Bot是一个基于大型语言模型的数据库诊断系统,旨在帮助数据库管理员 (DBA) 更高效地管理和维护数据库。该系统能够自动从诊断文档中获取知识,并在可接受的时间内生成合理的诊断报告,包括识别根本原因和解决方案。D-Bot 的核心技术包括离线知识提取、自动提示生成、基于树搜索算法的根本原因分析以及针对具有多个根本原因的复杂异常的协作机制。

阅读更多
77
未分类 诊断系统

基于自推理的检索增强语言模型改进

2024-08-01
基于自推理的检索增强语言模型改进

文章介绍了一种新的自推理框架,用于改进检索增强语言模型(RALM)的可靠性和可追溯性。该框架通过利用语言模型本身生成的推理轨迹,包括相关性感知、证据感知选择和轨迹分析三个过程,构建自推理轨迹,从而提高模型的性能。实验结果表明,该框架在问答和事实验证等任务上优于现有模型,甚至可以与GPT-4相媲美。

阅读更多
57

基因组代码:基因组实例化了生物体的生成模型

2024-08-01
基因组代码:基因组实例化了生物体的生成模型

这篇文章探讨了基因组如何编码生物体的形式,并提出了一种新的比喻:基因组编码了生物体的生成模型。作者认为,基因组并不直接编码生物体的形式或发育过程,而是包含一个压缩的潜在变量空间,这些变量通过进化学习算法编码并通过发育过程解码,形成一个约束发育自组织过程的能量景观,从而可靠地产生特定类型的个体。

阅读更多
55
未分类 发育生物学

Deep-TEMPEST:利用深度学习窃听 HDMI 线缆的电磁辐射

2024-07-31
Deep-TEMPEST:利用深度学习窃听 HDMI 线缆的电磁辐射

这篇文章介绍了一种名为 Deep-TEMPEST 的新型攻击方法,利用深度学习技术,通过分析 HDMI 线缆和连接器无意间产生的电磁辐射来窃听数字视频显示器的内容。该方法解决了传统 TEMPEST 攻击在数字视频信号上难以实现的问题,通过将问题转化为逆问题,并训练深度学习模型将观测到的电磁信号映射回显示的图像,从而实现窃听。

阅读更多
50
未分类 HDMI 窃听

节省每一分钱:用微薄预算从零开始训练扩散模型

2024-07-30
节省每一分钱:用微薄预算从零开始训练扩散模型

本文介绍了一种低成本训练大型文本到图像扩散Transformer模型的方法,旨在解决生成式AI模型开发过程中计算资源集中的问题。作者提出了一种随机遮蔽图像块的训练策略,并结合混合专家层等Transformer架构的改进,显著降低了训练成本,同时保持了模型性能。实验结果表明,该方法仅需花费1890美元,就能在COCO数据集上实现12.7 FID的零样本生成性能。

阅读更多
49
未分类

迷惑与困惑:一项针对reCAPTCHAv2的大规模真实用户研究

2024-07-29
迷惑与困惑:一项针对reCAPTCHAv2的大规模真实用户研究

本文介绍了一项针对reCAPTCHAv2验证码的大规模真实用户研究,该研究历时13个月,涉及超过3600名用户。研究发现,虽然用户在多次尝试后解决验证码的能力有所提高,但reCAPTCHAv2的设计仍然给用户带来了困扰,尤其是在图片识别方面。研究还发现,网站的上下文环境、用户的专业背景和教育水平都会影响验证码的解决时间。作者认为,reCAPTCHAv2及其类似技术存在成本高、安全性低的问题,应该被淘汰。

阅读更多
50
未分类 验证码

深度学习面试题:数百道涵盖人工智能关键领域的已解决面试题

2024-07-27
深度学习面试题:数百道涵盖人工智能关键领域的已解决面试题

《深度学习面试题》第二版涵盖了人工智能关键领域中数百道已解决的面试题,旨在帮助机器学习硕士/博士生以及准备面试的人员复习特定主题并提供该领域的全面概述。书中的问题极具挑战性,但以发人深省的问题和引人入胜的故事为框架,能够帮助读者提升技能、自信地回答技术问题并深刻理解面试问题的目的和意义。

阅读更多
42
未分类

多模态自动化可解释性代理

2024-07-24
多模态自动化可解释性代理

本文介绍了一种名为 MAIA 的多模态自动化可解释性代理系统。MAIA 利用神经模型来自动执行神经模型理解任务,例如特征解释和故障模式发现。它为预训练的视觉语言模型配备了一套工具,支持对其他模型的子组件进行迭代实验,以解释其行为。这些工具通常由人类可解释性研究人员使用,用于合成和编辑输入、从现实世界的数据集中计算最大激活样本,以及总结和描述实验结果。MAIA 提出的可解释性实验组合了这些工具来描述和解释系统行为。

阅读更多
46
未分类

2024年5月Gannon地磁暴期间的卫星阻力分析

2024-07-21
2024年5月Gannon地磁暴期间的卫星阻力分析

本文分析了2024年5月发生的20年来最强地磁暴对卫星运行的影响。研究发现,此次地磁暴的强度和持续时间预测不准确,导致对卫星的影响评估不足。文章利用卫星阻力衰减特性识别了热层中总的质量密度增强,并通过分析北美防空司令部 (NORAD) 目录中所有低地球轨道卫星的两行轨道根数 (TLE) 数据,观察了大尺度趋势。

阅读更多
59
未分类 卫星阻力

大型语言模型究竟在模仿什么?将工程成就误认为人类语言能动性

2024-07-20
大型语言模型究竟在模仿什么?将工程成就误认为人类语言能动性

文章批判了将大型语言模型(LLM)的工程成就误认为是人类语言能动性的观点,认为这种观点是建立在“语言完备性”和“数据完备性”的错误假设之上的。文章指出,语言并非一个可以被完全建模的独立完整的事物,而是一种行动方式,其本质是具身性、参与性和不确定性,而这些特质是LLM所不具备的。

阅读更多
50
未分类 语言能动性

参数化矩阵模型

2024-07-20
参数化矩阵模型

文章介绍了一种称为参数化矩阵模型的通用机器学习算法。与大多数模仿神经元生物学特性的现有机器学习模型不同,参数化矩阵模型使用矩阵方程来模拟量子系统的物理特性。与通常解决物理问题的方式类似,参数化矩阵模型学习导致所需输出的控制方程。参数化矩阵模型可以使用代数、微分或积分关系从经验数据中进行有效训练。虽然最初是为科学计算而设计的,但文章证明了参数化矩阵模型是通用的函数逼近器,可以应用于一般的机器学习问题。

阅读更多
59

SpreadsheetLLM:面向大型语言模型的电子表格编码方法

2024-07-19
SpreadsheetLLM:面向大型语言模型的电子表格编码方法

本文介绍了 SpreadsheetLLM,这是一种为大型语言模型 (LLM) 设计的高效电子表格编码方法。该方法使用 SheetCompressor 编码框架,包含基于结构锚点的压缩、倒排索引翻译和数据格式感知聚合三个模块,显著提高了电子表格理解和推理能力。实验结果表明,SpreadsheetLLM 在电子表格表检测任务中优于传统方法,并在电子表格问答等下游任务中展现出高效性。

阅读更多
60

ELECTRA:以判别器而非生成器的方式预训练文本编码器

2024-07-18
ELECTRA:以判别器而非生成器的方式预训练文本编码器

这篇论文介绍了一种新的预训练语言模型ELECTRA,它使用了一种名为“替换词检测”的任务来提高效率。与BERT使用掩码预测的方式不同,ELECTRA使用一个生成器网络替换输入文本中的某些词,然后训练一个判别器网络来判断每个词是否被替换。这种方法在相同的计算资源下,能够学习到比BERT更好的上下文表示,尤其在小模型上表现更为突出。

阅读更多
55

xLSTMTime:利用xLSTM进行长期时间序列预测

2024-07-16
xLSTMTime:利用xLSTM进行长期时间序列预测

本文介绍了一种名为xLSTMTime的新型长期时间序列预测模型,该模型改进了现有的扩展LSTM(xLSTM)架构。xLSTMTime利用指数门控和改进的记忆结构,在多个真实数据集上超越了Transformer等现有模型。研究结果表明,改进后的循环架构在长期时间序列预测任务中可与基于Transformer的模型相媲美,为时间序列预测领域提供了新的可能性。

阅读更多
62
未分类 时间序列预测

Transformer层级如画家

2024-07-15
Transformer层级如画家

这篇论文研究了预训练Transformer模型中各层级的作用。研究发现,Transformer模型的底层和顶层与中间层级不同,但中间层级具有惊人的一致性。文章还发现,某些问题对于跳过层级、以不同于训练顺序运行层级或并行运行层级具有鲁棒性。这些观察表明,即使是冻结的预训练模型,也可以通过跳过层级或并行运行层级来优雅地权衡准确性和延迟。

阅读更多
53
未分类

LAGRANGE:位于地月拉格朗日点的激光引力波天线

2024-07-15
LAGRANGE:位于地月拉格朗日点的激光引力波天线

文章介绍了一种名为LAGRANGE的新型空间引力波天文台设计方案,该方案以更低的成本和更低的风险维持了LISA的所有重要科学目标。LAGRANGE由三个无拖曳航天器组成,位于最稳定的地心结构——地月L3、L4和L5拉格朗日点。该设计采用固定天线,允许与地球持续联系,解决了通信带宽和延迟问题。

阅读更多
57
未分类 天文台

新的狄利克雷多项式大值估计

2024-07-14
新的狄利克雷多项式大值估计

这篇论文证明了狄利克雷多项式取大值的频率的新界限。这为长度为$N$的狄利克雷多项式取接近$N^{3/4}$的值提供了改进的估计,这对于与素数和黎曼zeta函数相关的解析数论中的若干估计至关重要。因此,我们推导出零密度估计$N(σ,T)≤T^{30(1-σ)/13+o(1)}$和长度为$x^{17/30+o(1)}$的短区间的素数渐近线。

阅读更多
64

用四个非零参数拟合大象

2024-07-14
用四个非零参数拟合大象

这篇论文探讨了用四个参数拟合大象的问题。受费米对戴森模型的批评以及冯·诺依曼的名言“给我四个参数,我可以拟合一头大象,再加一个参数,我可以让它的鼻子动起来”的启发,该文首先明确了问题的定义,并在前人尝试的基础上,提出了一种新的拟合方法。

阅读更多
73
未分类 参数拟合

紧凑型 Fenwick 树在动态排序和选择中的应用

2024-07-14
紧凑型 Fenwick 树在动态排序和选择中的应用

Fenwick 树是一种经典的隐式数据结构,用于存储数组,支持高效地修改元素、访问元素、计算前缀和以及执行前缀和上的前驱搜索。本文介绍了Fenwick 树的几种变体,可以减小其在已知数组元素上限时的空间占用,并可以更快地执行前驱搜索。作者旨在使用这些变体来实现高效的动态位向量,该结构能够在对数时间内执行更新、排序和选择操作,并且空间开销仅为百分之几,优于现有的具有相同目的的数据结构。

阅读更多
48

探索文本到文本统一Transformer迁移学习的极限

2024-07-13
探索文本到文本统一Transformer迁移学习的极限

本文探讨了自然语言处理中迁移学习的应用,提出了一种将所有基于文本的语言问题转换为文本到文本格式的统一框架。研究比较了不同预训练目标、架构、未标记数据集、迁移方法等因素对数十种语言理解任务的影响。通过结合探索得到的见解、规模和新的“Colossal Clean Crawled Corpus”,文章在总结、问答、文本分类等多个基准测试中取得了最先进的结果。

阅读更多
50
未分类 迁移学习
1 2 9 10 11 13 15 16 17