SWE-bench:大型语言模型能否解决真实的GitHub问题?

2025-01-08
SWE-bench:大型语言模型能否解决真实的GitHub问题?

SWE-bench是一个评估大型语言模型解决真实GitHub问题的基准数据集。研究人员收集了来自12个流行Python仓库的2294个Issue-Pull Request对,并通过单元测试验证模型生成的补丁。最新的排行榜显示,多种模型取得了不同程度的成功,其中一些模型的解决率已超过50%。该项目还提供了多种资源,包括精简版数据集和预训练模型,方便研究人员进行评估和复现。

阅读更多
开发

TopoNets:模拟大脑拓扑结构的高性能视觉和语言模型

2025-02-03
TopoNets:模拟大脑拓扑结构的高性能视觉和语言模型

研究人员提出了一种名为TopoLoss的新方法,该方法能够在不显著降低模型性能的情况下,将类似大脑的拓扑结构引入领先的AI架构(卷积网络和Transformer)。由此产生的模型TopoNets,是目前为止性能最高的有监督拓扑神经网络。TopoLoss易于安装和使用,实验结果表明,TopoNets在保持高性能的同时,展现出与大脑相似的空间拓扑结构,并能够产生稀疏、参数高效的语言模型。更重要的是,TopoNets在图像识别中展现出与大脑视觉皮层相似的区域选择性,在语言模型中也展现出类似大脑神经元的时序整合窗口特性。

阅读更多
AI

农业部监察长拒不接受解雇,遭保安护送离开

2025-02-01
农业部监察长拒不接受解雇,遭保安护送离开

美国农业部监察长Phyllis Fong拒绝接受特朗普政府的解雇令,本周被保安人员护送离开了办公室。Fong在农业部工作了22年,她认为白宫没有遵守正确的程序。她援引监察长廉正和效率委员会的意见,该委员会认定解雇通知不符合法律要求,因此无效。白宫则辩称解雇Fong等监察长是为了让“合格的个人”来维护法治和保护民主。Fong的职责范围广泛,包括食品安全、审计和对农业部的调查等,她还负责调查Neuralink等公司。此次解雇被批评为“星期五晚上大清洗”。

阅读更多
杂项 监察长

arXivLabs:与社区协作者共建arXiv新功能

2025-05-16
arXivLabs:与社区协作者共建arXiv新功能

arXivLabs是一个允许协作者直接在arXiv网站上开发和分享新功能的框架。参与其中的个人和组织都认同arXiv的开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,只与坚持这些价值观的合作伙伴合作。如果你有想法能为arXiv社区增值,那就了解更多关于arXivLabs的信息吧!

阅读更多
开发

Starlink在非洲部分地区价格更低,颠覆互联网市场

2025-01-10
Starlink在非洲部分地区价格更低,颠覆互联网市场

SpaceX的Starlink卫星互联网服务正在非洲部分地区的价格战中胜出。在至少五个非洲国家,Starlink的月费低于主要固网互联网服务提供商。尽管Starlink的硬件成本需要考虑,但其低廉的月费和高速稳定的连接,尤其在偏远地区,使其成为更具吸引力的选择。这导致当地运营商被迫降价,并促使他们投资于自身卫星网络。然而,Starlink的快速扩张也引发了垄断和就业问题的担忧。

阅读更多

几何代数入门:多向量与旋转

2025-02-27

本文简要介绍了n维几何代数R(p,q,r)。该代数由p个正向量、q个负向量和r个零向量生成,这些向量被称为生成元,记作eᵢ。代数包含实数标量,每个基n向量都平方为一个实数。两个向量的乘积或二向量的指数运算产生一个旋转子,可以表示旋转、平移等变换。代数中的一个一般元素称为多向量,它是标量、向量和n向量的线性组合。

阅读更多

Meta胜诉阻止前高管爆料书籍发布

2025-03-13
Meta胜诉阻止前高管爆料书籍发布

Meta成功阻止了一名前政策主管兼举报人萨拉·温恩-威廉姆斯出版的爆料回忆录《粗心大意的人》的销售和宣传。该书披露了扎克伯格试图将Facebook引入中国以及Meta政策主管的不当行为等细节。仲裁员裁定温恩-威廉姆斯违反了保密协议,Meta称该书为“旧闻新书”,并得到了多名前员工的证实。

阅读更多
科技 爆料

告别传统平铺窗口管理器:拥抱Niri带来的无限空间

2025-03-12
告别传统平铺窗口管理器:拥抱Niri带来的无限空间

作者长期使用平铺式窗口管理器(Sway和i3),但最近因Sway的一个bug而转向了新型窗口管理器Niri。Niri采用可滚动平铺设计,解决了传统平铺管理器空间受限的问题。作者详细比较了Niri和Sway,发现Niri在屏幕共享、截图、电池续航等方面均有显著提升,并更容易进行二次开发。他认为Niri打破了传统平铺管理器对空间的限制,提升了工作效率,强烈推荐其他用户尝试。

阅读更多
开发 Niri

摆脱React困境:速成秘诀之“一次性代码”

2025-05-09

一位程序员在React项目中挣扎,调试时间远超开发时间。他用韩语谚语“배보다 배꼽이 더크다”(重心错位)形容了困境。阅读《Pure React》后,他开始大量编写“一次性代码”练习React,快速掌握技能。最终,他用30分钟做出原型,惊艳朋友。结论:多用“一次性代码”练习,快速提升技能,摆脱困境。

阅读更多
开发 速成

跨越大陆的风:远程呈现风的艺术装置

2025-01-24

艺术家David Bowen创作的“远程呈现风”艺术装置,通过将户外植物茎干连接的加速器与画廊内126个机械装置相连,实时模拟远方风力。无论装置位于西班牙毕尔巴鄂还是莫斯科,都能精准捕捉并呈现几千公里外明尼苏达大学实验室附近的风力变化,将自然力量以艺术形式呈现,体现科技与自然的巧妙融合。

阅读更多
设计

基于时间的日志记录胜过基于计数的日志记录

2025-07-21

软件工程中的日志记录策略至关重要。本文作者论证了在处理大量事件时,基于时间的日志记录(例如,每 X 秒记录一次)优于基于计数的日志记录(例如,每 X 条消息记录一次)。基于计数的日志记录在不同负载下日志频率波动大,可能导致日志过少或过多。而基于时间的日志记录能保持稳定的日志速率,避免因日志过多而降低系统性能或因日志过少而影响可观察性。作者通过伪代码示例和利弊分析,有力地支持了其观点,为高效的日志记录策略提供了新的思路。

阅读更多
开发

塑造科学百年:100本影响深远的科学书籍

2025-02-04

《美国科学家》杂志1999年刊登的“科学家书架”文章列出了100余本塑造了科学百年发展的书籍,涵盖了传记、野外指南、物理科学、专著、科学史、科学本身的考察、多方面的生活以及人类物种的起源和发展等多个方面。从达尔文的自传到费曼的趣闻轶事,从量子力学的原理到人工智能的社会影响,这些书籍展现了科学探索的历程和科学思想的演变,为我们理解科学提供了多维度的视角。

阅读更多

堆溢出漏洞:一场潜在的系统灾难

2025-03-26

近日,一个严重的堆溢出漏洞被发现,该漏洞可能导致系统崩溃甚至被远程控制。漏洞利用者可以通过一个名为'random-tool'的工具,触发目标系统上的'atop'程序发生内存损坏,最终导致'Segmentation fault'或其他致命错误。更可怕的是,如果目标用户是root权限,攻击者就能完全控制系统。作者呼吁停止运行该工具,避免潜在的风险。

阅读更多
开发

GitMCP:赋能AI,深度理解GitHub代码

2025-04-03
GitMCP:赋能AI,深度理解GitHub代码

GitMCP 是一款为GitHub项目创建专用模型上下文协议(MCP)服务器的工具,让AI助手能够深入理解你的代码上下文。它能够读取README、代码注释等文件,为AI助手提供更准确、更相关的代码信息,简化设置过程,无需复杂配置,即可连接你的AI工具。GitMCP 支持任何公共GitHub仓库和GitHub Pages,使你的文档和代码更容易被AI工具访问。

阅读更多
开发 代码理解

手工制作机械腕表的奇妙旅程

2024-12-17
手工制作机械腕表的奇妙旅程

Imgur 上的一张专辑记录了一位手工匠人制作机械腕表的全过程。从零部件的准备到精密的组装,每一个步骤都展现了精湛的技艺和对细节的极致追求。读者可以透过图片,感受机械腕表制作的魅力,体会到时间与技艺的完美融合。

阅读更多
杂项 机械腕表

压力山大的现场编码面试:它真的能测出你的编码能力吗?

2025-08-01

作者分享了自身以及科学研究表明,现场编码面试并非有效评估工程师能力的指标。高压环境下,大脑杏仁核被激活,皮质醇水平飙升,前额叶皮层受损,导致工作记忆力下降,从而影响编码能力。研究显示,在被观察情况下,参与者的得分只有独自完成时的二分之一,女性参与者更是全部失败。作者建议通过模拟面试练习来减轻压力,并探讨了补充L-酪氨酸和L-茶氨酸等方法来提升压力下的表现。

阅读更多

新西兰研发的超导电磁推进器即将进入国际空间站

2025-02-28
新西兰研发的超导电磁推进器即将进入国际空间站

新西兰维多利亚大学Paihau-Robinson研究所研发出一种利用高温超导体(HTS)的磁等离子体动力推进器(AF-MPD),其能耗仅为传统铜电磁铁的1%,磁场强度却是后者的三倍。该技术有望降低航天工业对化学火箭的依赖。名为“Hēki”的实验装置已运往休斯顿,即将安装到国际空间站进行测试,验证HTS磁体和磁通泵在太空环境中的可靠性,并进行辐射屏蔽实验。未来,该技术将应用于“Kōkako”推进器,有望实现更节能高效的太空推进。

阅读更多

寒冬将至:Hacker News 上的创业神话破灭?

2025-01-21
寒冬将至:Hacker News 上的创业神话破灭?

一篇 Hacker News 文章指出,创业氛围发生了转变。2013年,失败的创业者在 Hacker News 上分享故事时,会得到鼓励;但如今,类似的故事却引来对创业风险的质疑。这种转变的原因在于:创业的负面影响(倦怠、关系破裂、心理健康问题)日益显现;大型科技公司的高薪使得创业的经济吸引力下降;风投模式的局限性暴露无遗;移动互联网/Web 时代的低垂果实已被采摘殆尽。作者认为,这预示着“创业寒冬”的来临,但这可能孕育更真实、更可持续的创业生态。

阅读更多

博茨瓦纳成功发射首颗卫星BOTSAT-1

2025-03-26
博茨瓦纳成功发射首颗卫星BOTSAT-1

3月15日,博茨瓦纳首颗卫星BOTSAT-1搭乘SpaceX的猎鹰9号火箭成功发射。这颗3U高光谱地球观测卫星由博茨瓦纳国际科技大学(BIUST)开发,旨在服务于粮食安全、环境保护和城市规划等国家发展重点。BOTSAT-1的发射标志着博茨瓦纳空间能力的提升,也为其未来发展奠定了基础,例如正在规划中的BOTSAT-2。该项目还促进了当地工程师的人才培养,并与南非Dragonfly Aerospace公司合作,提升了BIUST的卫星研制能力。

阅读更多
科技 非洲航天

arXivLabs:与社区协作者一起进行实验性项目

2025-02-10
arXivLabs:与社区协作者一起进行实验性项目

arXivLabs是一个框架,允许合作者直接在arXiv网站上开发和分享新的功能。参与arXivLabs的个人和组织都认同并接受了arXiv的开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。如果你有想法能够为arXiv社区增值,了解更多关于arXivLabs的信息。

阅读更多
开发

CodeSandbox:如何实现 2 秒内克隆开发环境?

2025-04-11
CodeSandbox:如何实现 2 秒内克隆开发环境?

CodeSandbox 通过巧妙运用 Firecracker 微虚拟机和内存快照技术,实现了惊人的 2 秒内克隆开发环境。文章详细解释了如何利用 Firecracker 的 MicroVM 快速启动虚拟机,以及通过内存快照和写时复制 (CoW) 技术,极大地缩短了快照保存和克隆时间。这项技术不仅提升了 CodeSandbox 的用户体验,也为云端 IDE 和微服务部署提供了新的思路。

阅读更多

企业炫耀时代终结?远程办公的崛起与办公楼的黄昏

2025-03-28
企业炫耀时代终结?远程办公的崛起与办公楼的黄昏

随着远程办公的普及,企业强制返岗的现象引发热议。文章指出,许多公司强制员工返岗并非出于提高生产力的考虑,而是出于维护公司形象、偿还巨额商业地产债务以及管理者维护自身权威的需要。大量数据表明,混合办公模式反而能提高生产力,而强制返岗则会增加优秀员工流失率。文章建议企业采用基于证据的管理方法,关注绩效而非员工出勤率,并根据工作性质灵活安排办公地点,最终摒弃过时的“企业炫耀”文化,迎接更加灵活和高效的未来工作模式。

阅读更多
创业 办公模式

OpenAI 的 o3 系统在 ARC-AGI 基准测试中取得突破性进展

2024-12-20
OpenAI 的 o3 系统在 ARC-AGI 基准测试中取得突破性进展

OpenAI 的新型 o3 系统在 ARC-AGI-1 公开训练集上进行训练,在半私有评估集上取得了 75.7% 的突破性高分,这标志着人工智能能力的显著提升。该系统展现出前所未有的新任务适应能力,挑战了现有大型语言模型的局限性。虽然 o3 系统在一些简单任务上仍然失败,距离通用人工智能(AGI)还有距离,但这项成果为 AGI 的研究提供了宝贵的数据点,也突显了在测试时重新组合知识的重要性。

阅读更多
AI

PostgreSQL调试利器:利用继承简化数据库调试

2025-03-21
PostgreSQL调试利器:利用继承简化数据库调试

本文介绍了一种利用PostgreSQL继承特性简化数据库调试的方法。通过创建一个公共父表,包含序列ID和时间戳,所有子表继承这些列,从而实现所有表ID唯一且同一事务中的数据具有相同时间戳。这样,只需一个SQL语句即可查询所有表中的ID及所属表名,并根据时间戳判断数据插入顺序及事务所属关系,大大提高调试效率。

阅读更多

基于地形优化的安东尼努斯行程路线研究

2025-07-08
基于地形优化的安东尼努斯行程路线研究

研究人员利用MADO模型和最小成本路径算法,结合地形数据重新评估了安东尼努斯行程表中从图伊到卢戈的路段(罗马道路XI)。研究发现,先前研究中提出的站点位置分布差异显著,主要原因在于地形坡度对路线选择的影响。通过考虑地形因素,研究者提出了新的最佳路线,该路线与考古发现较为吻合,并解释了部分里程碑位置与最佳路线存在偏差的原因。

阅读更多
杂项 空间建模

AI模型的知识差距和系统提示偏见如何扼杀新技术的采用

2025-02-14

本文探讨了AI模型的知识截止日期和系统提示偏见如何影响开发者选择技术。由于AI模型的训练数据存在时间滞后,新技术往往得不到及时的支持,导致开发者更倾向于使用AI模型能更好地支持的技术,即使这些技术并非最佳选择。此外,一些AI模型对特定技术(如React和Tailwind)存在偏见,甚至会无视用户的指令,自动将代码转换为其偏好的技术。这导致技术选择受AI模型影响,阻碍新技术的采用和发展。作者建议AI公司应提高透明度,公开模型的偏见信息,避免对软件开发方向产生不良影响。

阅读更多
开发 AI偏见

重制达芬奇的《我们之间的事》:一次Ableton Live 12的深度体验

2025-04-05
重制达芬奇的《我们之间的事》:一次Ableton Live 12的深度体验

作者用Ableton Live 12重制了达芬奇乐队的经典曲目《我们之间的事》,并分享了整个制作过程。文章不仅详细介绍了每个音轨的制作方法,包括乐器选择、效果器使用和一些技巧,还深入探讨了“法国触感”音乐风格的起源和特点,以及重制过程中遇到的挑战和解决方案。作者最终完成了作品,并对Ableton Live 12给予了高度评价,称其为其首选DAW。

阅读更多
游戏 法国触感

GitHub UI 架构的过去、现在和未来:10倍的成本

2025-01-24

本文是GitHub工程师Joel Hawksley关于GitHub UI架构演进的总结。他回顾了GitHub UI从早期简陋到如今注重可用性和可访问性的历程,以及由此带来的挑战。他指出,移动端已成为新基准,而构建和维护设计系统(如Primer)的成本远超预期,且前端代码的复杂性是后端的十倍。他建议开发者避免重复造轮子,充分利用现有设计系统,并谨慎规划前端复杂性,以降低成本和提升效率。

阅读更多
开发

技术身份的构建与挑战:一位心理学家的视角

2025-04-17
技术身份的构建与挑战:一位心理学家的视角

一位软件环境心理学家反思了“技术性”标签的社会构建。她指出,“技术性”并非客观的技能评估,而是权力结构的体现,排斥那些不符合既定标准的人。作者通过自身经历和研究,揭示了技术领域中存在的性别、阶级和种族偏见,以及由此产生的不平等现象。她呼吁打破固有的技术身份界限,关注技术背后的人性,构建更包容和公平的技术生态。

阅读更多

MongoDB:云端数据腐败的守护者

2024-12-25

MongoDB Atlas,作为全球性的云数据库服务,面临着海量数据带来的数据腐败风险。文章详细介绍了MongoDB如何通过软件层面的技术,例如校验和验证、索引和复制利用以及冗余副本修复等方法,主动检测和修复云端数据腐败问题,确保数据完整性。这套系统分为三个步骤:主动监控、精确定位和修复腐败数据。即使在硬件层面存在缺陷或随机故障,MongoDB也能确保客户数据的安全可靠,从而将硬件管理的细节从客户的日常工作中剥离出来。

阅读更多
1 2 970 971 972 974 976 977 978 1084 1085