C++设计模式在低延迟应用和高频交易中的应用
本文研究了在低延迟代码优化方面的知识差距,特别是针对高频交易(HFT)系统。主要贡献包括创建了低延迟编程库,优化了市场中性统计套利配对交易策略,并在C++中实现了Disruptor模式。该研究提供了实践指南和严格的统计基准测试,交易策略优化显著提高了速度和盈利能力,Disruptor模式相较于传统队列方法也展现出显著的性能提升。
阅读更多
本文研究了在低延迟代码优化方面的知识差距,特别是针对高频交易(HFT)系统。主要贡献包括创建了低延迟编程库,优化了市场中性统计套利配对交易策略,并在C++中实现了Disruptor模式。该研究提供了实践指南和严格的统计基准测试,交易策略优化显著提高了速度和盈利能力,Disruptor模式相较于传统队列方法也展现出显著的性能提升。
阅读更多
这篇论文探讨了大型语言模型 (LLM) 的推理能力,并将其与几何理解联系起来。研究发现,LLM 中自注意力图的密度与其表达能力之间存在关联,密度越高,表达能力越强。论文通过理论分析和示例证明了这一点,并提供了经验证据,将这一几何框架与增强 LLM 推理能力的最新方法联系起来。
阅读更多
这篇论文介绍了一种在GPU上执行笔画扩展的技术,用于生成表示给定输入路径笔画的轮廓线。该技术采用了一种完全并行的算法,该算法适用于在GPU计算着色器中执行,只需最少的预处理。该方法的输出可以是直线段或圆弧段,两者都非常适合GPU渲染,并且段的数量最少。
阅读更多
文章介绍了一种使用预训练语言模型压缩搜索信息的新方法SLaM压缩,以及基于该方法的搜索模型CoSMo。研究者利用SLaM压缩量化搜索词,创建低维、高效的搜索数据表示,并使用CoSMo仅基于搜索数据准确估算了美国汽车销量和美国流感发病率等现实世界事件。
阅读更多
本文介绍了一个名为Newswire的大规模结构化数据库,该数据库包含了从1878年到1977年间美国270万篇新闻专线文章,文章内容主要来自当地报纸。该数据库通过深度学习管道从大量原始报纸图像扫描中重建,并对文章进行了地理参考、主题标记、命名实体识别和人物消歧等处理,为研究计算语言学、社会科学和数字人文等领域的各种问题提供了宝贵资源。
阅读更多
本文描述了Gerald Edelman在2006年提出的构建意识artifacts路线图。Edelman认为构建这样的artifacts需要经历一系列关键步骤,包括构建能够进行复杂感觉运动控制的机器人、赋予机器人进行自适应行为和学习的能力,以及最终实现类似意识的特性。
阅读更多
大型语言模型在处理长文本输入时,在准确检索信息和保持推理能力方面存在不足。为解决这些限制,研究人员提出了一种利用精心设计的合成数据集进行微调的方法,该数据集包含数字键值检索任务。在 GPT-3.5 Turbo 和 Mistral 7B 等模型上进行的实验表明,在该数据集上微调大型语言模型可以显著提高其在较长上下文环境中的信息检索和推理能力。
阅读更多
本文重新解读了 ELIZA,普遍认为是世界上第一个聊天机器人,由约瑟夫·魏岑鲍姆在 20 世纪 60 年代初编写。魏岑鲍姆并非有意发明聊天机器人,而是想构建一个平台,用于研究人机对话以及解释和误解的重要认知过程。由于 ELIZA 的诞生恰逢其时,以及它意外流传到外界,它的目的被掩盖了。本文提供了 ELIZA 诞生的丰富历史背景,证明了 ELIZA 是人工智能技术史上一些中心线索交汇的产物。
阅读更多
该研究通过向磷灰石框架中大量掺杂硫,合成了一种主要由变体磷灰石和铜蓝(硫化铜)组成的新型混合物。磁性测量表明,在260K附近出现明显的抗磁性,并在30K以下急剧下降,这意味着两种超导相共存。电学测量表明,电流-电压曲线偏离了正常的线性形状,表明存在零电阻效应。这些奇异的磁学和电学特征强烈表明,变体磷灰石和铜蓝这两种成分分别在接近室温和低温下触发了两种超导相。
阅读更多
本文探讨了依赖类型的面向对象编程领域,从熟悉的基于数据语言开始,通过系统的反函数化和再函数化,推导出其对偶片段。论文的核心贡献是一个包含两种对偶语言片段的依赖类型演算,并提供这两种语言片段之间的类型和语义保留转换:反函数化和再函数化。
阅读更多
SquirrelFS是一种新的持久内存崩溃安全文件系统,它利用Rust的类型状态模式在编译时强制执行特定的操作顺序。它引入了一种新的崩溃一致性机制,即同步软更新,将崩溃安全性简化为强制执行文件系统元数据更新之间的顺序。SquirrelFS不需要单独的证明,而是将正确性保证纳入类型状态本身,编译仅需几秒钟,成功编译表示崩溃一致性,而错误则提供修复错误的起点。
阅读更多
这篇论文研究了大型语言模型(LLM),如ChatGPT,在学术写作中的使用情况。研究人员分析了2010-2024年间发表在PubMed上的1400万篇摘要,发现自LLM出现以来,某些风格词汇的频率急剧上升。分析表明,2024年至少有10%的摘要使用了LLM进行处理,某些学科、国家和期刊的比例甚至高达30%。这项研究表明,基于LLM的写作助手对科学文献产生了前所未有的影响。
阅读更多
文章介绍了一种名为Q*的通用框架,用于改进大型语言模型在多步推理任务中的表现。Q*框架通过学习一个即插即用的Q值模型作为启发式函数,有效引导大型语言模型选择最有希望的下一步,而无需针对每个任务微调模型,避免了巨大的计算开销和性能下降的潜在风险。
阅读更多
这篇论文介绍了RAR-b,一个全新的用于评估检索模型推理能力的任务和设置套件。作者认为,尽管在语义文本相似度(STS)和信息检索(IR)任务上取得了进展,但当前最先进的检索模型在处理需要推理能力的任务方面仍然不足。作者发现,基于解码器的嵌入模型在缩小推理能力差距方面显示出巨大潜力,而对重排序模型进行微调是提高其推理能力的有效方法。
阅读更多
这篇论文揭示了ARM内存标记扩展 (MTE) 面临的潜在安全风险,特别是由推测执行攻击带来的风险。作者发现了一种名为TikTag的新型攻击方法,可以利用推测执行从任意内存地址泄漏MTE标签。通过TikTag,攻击者可以绕过MTE的概率防御,将攻击成功率提高到接近100%。论文展示了TikTag如何绕过现实世界系统(如谷歌浏览器和Linux内核)中的MTE保护机制,并提出了新的防御机制以减轻TikTag带来的安全风险。
阅读更多
这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现,模型拒绝行为是由模型残差流激活中一个单一方向介导的,通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法,可以精准地消除模型的拒绝行为,同时对其他能力的影响最小。
阅读更多
大型语言模型(LLM)虽然革新了自然语言处理领域,但也存在偏见和生成有害内容的风险。文章研究发现,采用强化学习人类反馈(RLHF)等校准技术虽然能减少这些问题,但也会降低模型的创造力,即语法和语义多样性。文章通过对 Llama-2 系列模型进行的实验,揭示了校准后的模型在标记预测中熵值较低,嵌入空间中形成独特的聚类,并倾向于“吸引子状态”,表明输出多样性有限。
阅读更多
本文介绍了一种简单算法,用于枚举上下文无关文法 (CFG) 生成的树。该算法使用配对函数在 CFG 推导和自然数之间形成双射,以便可以从计数中唯一地解码树。这提供了一种对自然逻辑语言中的表达式进行编号的通用方法,并且有可能扩展到其他组合问题。该算法还可以推广到更通用的推导形式,包括树上的 Lempel-Ziv 编码的类似物。
阅读更多
这篇论文调查了互联网文化现象“瑞克摇摆”在学术文献中的存在。研究发现,截至2022年3月,共有23篇学术文献中存在“瑞克摇摆”,主要出现在脚注、代码列表和参考文献中。作者认为,这种现象证明了学术界的灵感和幽默感,对良好的科学发展是有益的。
阅读更多
这篇论文探讨了大型语言模型(LLM)能否作为基于文本的世界模拟器,用于预测动作如何改变世界状态。研究者创建了一个名为ByteSized32-State-Prediction的新基准数据集,包含文本游戏状态转换和游戏任务。通过测试GPT-4在该数据集上的表现,研究发现尽管GPT-4表现出色,但它仍然是一个不可靠的世界模拟器,需要进一步的创新。
阅读更多
文章论证了机器不可能发展到像人类一样大,更不可能超过人类尺寸。作者从七个不同角度进行论证,最终得出结论:机器尺寸超过人类不仅不可信,而且根本不可能实现。
阅读更多
本文对基于 Mamba 的语言模型进行了实证研究,比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型在相同数据集上的性能。研究发现,虽然纯 SSM 在许多任务上与 Transformer 相当或优于 Transformer,但在需要强大的复制能力或上下文学习能力的任务上落后于 Transformer。相比之下,8B Mamba-2-Hybrid 在所有 12 项标准任务上都超过了 8B Transformer,并且预计在推理时生成token的速度要快 8 倍。
阅读更多
文章介绍了一项利用开源大型语言模型LLaMA-3对网络图片进行重新标注的研究。研究人员首先微调了一个基于LLaMA-3-8B的LLaVA-1.5模型,然后用它对来自DataComp-1B数据集的13亿张图片进行了重新标注。实验结果表明,使用这个名为Recap-DataComp-1B的增强数据集训练视觉语言模型可以显著提高模型性能。
阅读更多