大型语言模型的长对话灾难性失败:注意力汇点与StreamingLLM

2025-08-09

研究人员发现大型语言模型在长对话中灾难性失败的原因是:为了节省内存而移除旧的token会导致模型产生完全无意义的输出。他们发现模型会将大量注意力集中在最初几个token上,将其作为“注意力汇点”——因为softmax函数要求权重之和为1,所以这是存放未用注意力的位置。他们的解决方案StreamingLLM,简单地永久保留这最初的4个token,同时滑动其他所有token的窗口,使得能够稳定地处理超过400万个token,而不是仅仅几千个。此机制现已集成到HuggingFace、NVIDIA TensorRT-LLM和OpenAI的最新模型中。OpenAI的开源模型GPT-OSS也使用了类似的注意力汇点机制,这证明了该研究成果的实际应用价值。

阅读更多

Poltergeist:让你的构建保持新鲜的幽灵

2025-08-09
Poltergeist:让你的构建保持新鲜的幽灵

Poltergeist 是一款 AI 友好的通用文件监视器,能够自动检测任何项目并在文件更改后立即重建它们。它支持 macOS、Linux 和 Windows,提供独立二进制文件和 npm 包两种安装方式。Poltergeist 具有智能构建队列、实时构建输出、内联错误诊断等特性,并针对人类和 AI 开发工作流程进行了优化,极大地提升了开发效率。

阅读更多

Cloudflare自动压缩引发的HTTP流式传输噩梦

2025-08-09
Cloudflare自动压缩引发的HTTP流式传输噩梦

Mintlify团队在使用Node流API和AI SDK进行HTTP流式传输时遇到问题:cURL和Postman正常工作,但node-fetch和浏览器fetch失败。排查过程中,他们发现Cloudflare Worker可以作为临时解决方案,但最终发现问题根源在于Cloudflare自动启用了压缩,而浏览器默认发送Accept-Encoding头导致压缩后的响应无法被正确解析。禁用Cloudflare压缩后问题解决。这突显了Cloudflare“智能”默认设置的潜在风险,强调了基础设施即代码和可追溯性的重要性。

阅读更多

macOS字体里的苹果历史密码

2025-08-09
macOS字体里的苹果历史密码

你可能不知道,macOS系统字体“Apple Symbols”中隐藏着苹果公司数十年的技术历史。这套字体包含了从FireWire到Newton PDA等众多过时技术的图标,甚至还有PowerPC处理器和初代QuickTime的标志。这些图标记录了苹果的辉煌与变迁,也为我们展现了一段科技发展的精彩故事。虽然苹果已经更新了图标库,但这些历史的痕迹依然保留在Apple Symbols字体中,等待着你去发现。

阅读更多
科技

arXivLabs:与社区协作者的实验项目

2025-08-09
arXivLabs:与社区协作者的实验项目

arXivLabs是一个允许协作者直接在arXiv网站上开发和共享新功能的框架。参与arXivLabs的个人和组织都认同并接受了arXiv关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,只与遵守这些价值观的合作伙伴合作。如果你有想法能为arXiv社区增值,那就了解更多关于arXivLabs的信息吧!

阅读更多
开发

PostgreSQL赋能高性能、可观测的持久化工作流

2025-08-09
PostgreSQL赋能高性能、可观测的持久化工作流

本文探讨了DBOS团队选择PostgreSQL作为持久化工作流库元数据存储的底层技术原因。PostgreSQL的并发控制机制,特别是锁语句,解决了数据库队列的竞争问题,实现了每秒处理数万个工作流的扩展性。其关系型数据模型和二级索引,简化了工作流元数据的可观测性工具的开发,方便实时监控和可视化。此外,PostgreSQL事务特性保证了数据库操作步骤的“恰好执行一次”语义,避免重复执行。总而言之,PostgreSQL的诸多特性使其成为构建强大且高性能持久化工作流库的理想选择。

阅读更多

Lisp1 vs. Lisp2: 函数与值命名空间之争

2025-08-09

这篇技术报告探讨了Lisp语言中函数命名空间和值命名空间分离的利弊。Lisp1采用单一命名空间,而Lisp2则将两者分开。作者分析了两种方案在语法简洁性、命名清晰度、编译器复杂度、高阶函数、宏以及空间和时间效率等方面的差异。虽然Lisp1在简洁性和功能编程方面更具优势,但Lisp2在宏使用和避免命名冲突方面表现更好,最终结论是现状(Lisp2)更适合Common Lisp。

阅读更多
开发

OpenAI 意外下架 GPT-4o 引发用户不满

2025-08-09

OpenAI 在推出 GPT-5 时意外下架了 GPT-4o 等旧模型,引发大量 ChatGPT 用户不满。许多用户依赖 GPT-4o 进行创意协作、情感交流等,而 GPT-5 在这些方面表现不同,导致工作和创作方式受到影响。OpenAI 虽然回应称将为付费用户恢复 GPT-4o,但此举凸显了大型语言模型用户需求多样化以及 OpenAI 在模型更新中对用户体验考虑不足的问题。这同时也引发了关于大型语言模型伦理问题的讨论,例如在处理高风险个人决策问题时应有的谨慎性。

阅读更多
AI

海星:比恐龙更古老的海洋奇迹

2025-08-09
海星:比恐龙更古老的海洋奇迹

海星,这种比恐龙早出现数亿年的古老生物,遍布全球各大洋。它们没有鳍和鳃,却进化出各种防御机制,例如棘刺、神经毒素和再生能力——甚至可以从一只断臂再生出整个身体!数千年来,海星在不同文化中都扮演着重要角色,从阿兹特克祭祀到现代卡通形象,它们以其独特形态和再生能力令人着迷。如今,约有2000种海星,形态各异,颜色绚丽,从微小的指尖大小到巨大的卡车轮胎大小不等,展现了大自然的神奇与多样性。

阅读更多
杂项 海星

尝试用扩散模型解决ARC AGI竞赛难题

2025-08-09
尝试用扩散模型解决ARC AGI竞赛难题

作者尝试使用扩散模型来解决ARC AGI竞赛的难题,该竞赛要求模型解决复杂的视觉推理任务。作者将一个自回归语言模型改造成扩散模型,并使其能够以非顺序的方式生成答案。实验结果显示,该方法在像素精度上略有提高,但并未显著提升任务成功率。作者分析了其原因,主要在于扩散模型的缓存机制效率较低,导致计算速度慢于自回归模型。未来工作将集中于改进缓存机制,以及开发更有效的候选答案生成策略。

阅读更多
AI ARC AGI

太阳系行星全景图:除了地球,还有哪些奇妙世界?

2025-08-09
太阳系行星全景图:除了地球,还有哪些奇妙世界?

这张图片展现了除地球外的所有太阳系行星,每个行星都独具特色。水星是距离太阳最近的行星,是一个贫瘠且遍布陨石坑的世界;金星被厚厚的云层笼罩;火星是红色的星球,拥有广袤的沙漠和太阳系最大的火山;木星和土星是气态巨行星,体积巨大,风暴肆虐,土星环更是引人注目;天王星和海王星是冰巨星,富含甲烷,呈现出美丽的蓝色。

阅读更多
科技

Marimo:颠覆传统Python Notebook 的数据流图革命

2025-08-09
Marimo:颠覆传统Python Notebook 的数据流图革命

Marimo 是一款开源的 Python 笔记本,它将笔记本表示为数据流图,而非传统的 REPL。这种表示方法结合了交互式计算的优点和 Python 软件的可重现性和可重用性。Marimo 笔记本可以作为反应式笔记本、可执行脚本、Python 模块和交互式 Web 应用。它解决了传统笔记本在可重现性、交互性、可维护性和可重用性方面的不足,通过静态分析保证代码和输出同步,并支持 SQL 嵌入和模块热重载等特性。Marimo 已被 Cloudflare、Shopify 和 BlackRock 等公司采用。

阅读更多
开发 数据流图

Radar如何用Rust构建高性能地理空间数据库HorizonDB

2025-08-09
Radar如何用Rust构建高性能地理空间数据库HorizonDB

Radar公司每天处理超过10亿次API调用,其地理位置服务面临巨大的性能挑战。为了解决这个问题,他们用Rust开发了HorizonDB,一个高性能的地理空间数据库,取代了之前的MongoDB和Elasticsearch架构。HorizonDB整合了多种位置服务,并利用RocksDB、S2、Tantivy、FSTs、LightGBM和FastText等技术,实现了毫秒级的响应时间和线性扩展性。该系统显著降低了运营成本,并提升了开发效率,为Radar未来的发展奠定了坚实的基础。

阅读更多

NASA悼念阿波罗8号指令舱飞行员吉姆·洛弗尔

2025-08-09
NASA悼念阿波罗8号指令舱飞行员吉姆·洛弗尔

美国宇航局(NASA)发布声明,悼念于8月7日逝世的阿波罗8号指令舱飞行员吉姆·洛弗尔。洛弗尔曾参与双子座计划和阿波罗计划,是首位绕月飞行的宇航员,并在阿波罗13号任务中凭借冷静沉着将全体宇航员安全送回地球。NASA称赞洛弗尔勇敢、乐观,其成就激励着几代人,并为未来的阿耳忒弥斯登月任务奠定了基础。

阅读更多
科技

Efrit:基于AI的Emacs编程助手

2025-08-09
Efrit:基于AI的Emacs编程助手

Efrit是一款强大的AI编程助手,它直接利用Elisp评估功能与Emacs无缝集成。通过对话式界面(efrit-chat)、自然语言命令执行(efrit-do)以及命令行接口等多种方式,Efrit可以帮助你完成代码编写、代码修改、查找文件等任务。它支持多轮对话,并具有强大的错误处理机制和黑暗主题兼容性。Efrit需要Emacs 28.1或更高版本以及Anthropic API密钥。安装方法简单,只需克隆仓库并添加到Emacs配置即可。

阅读更多
开发

用Claude Code高效编写12个程序的经验分享

2025-08-09
用Claude Code高效编写12个程序的经验分享

作者分享了使用Claude Code大型语言模型编程代理的经验,在几个月内高效完成了12个编程项目。文章重点介绍了如何通过编写清晰的规范、代码审查和遵循个人制定的开发指南(包含增量式开发、测试驱动开发等原则)来提高代码质量和效率。作者强调了人工代码审查和测试的重要性,并分享了其GitHub上的项目列表。

阅读更多
开发 编程代理

Tor:军方项目如何成为隐私的救命稻草

2025-08-09
Tor:军方项目如何成为隐私的救命稻草

本文讲述了Tor匿名网络的秘密历史,从美国海军研究实验室的一个军事项目发展成为保护数字自由的工具。Tor通过洋葱路由技术,将网络流量加密并通过全球服务器网络传输,从而保护用户的匿名性。尽管Tor常被与暗网联系在一起,但它也为记者、活动家和生活在专制国家的民众提供了重要的保护。文章探讨了Tor的起源、设计理念以及它在隐私与安全之间的复杂关系,并指出强有力的隐私保护技术对维护数字自由和抵抗政府监控至关重要。

阅读更多
科技

基于FLIP模拟的翻转卡片项目开源

2025-08-09
基于FLIP模拟的翻转卡片项目开源

这个项目开源了一个基于流体隐式粒子(FLIP)模拟的翻转名片。它包含PCB设计文件(kicad-pcb文件夹)、独立的流体模拟库(fluid_sim_crate文件夹,基于Matthias Müller的工作)、可充电电池设计(参考cnlohr的项目)、用于调试的WASM模拟器(sim_display文件夹)以及RP2350的固件(flip-card_firmware文件)。更多细节请查看各文件夹的README文件。

阅读更多
硬件

16英镑的USB-C智能手表:超乎预期的惊喜

2025-08-09
16英镑的USB-C智能手表:超乎预期的惊喜

这款售价仅16英镑的Colmi P80智能手表最大的亮点在于其USB-C充电接口。作者出于对USB-C接口的偏爱购买了这款手表,并对其性能进行了全面的测试。测试结果显示,这款手表不仅充电速度快,续航能力也令人满意,可以持续使用5天。此外,其心率监测、睡眠监测等功能也表现出色。虽然存在一些不足,例如App功能较为简陋,但考虑到其价格,这款手表已超乎预期。

阅读更多

风投泡沫下的AI公司:Windsurf的火速崛起与低价出售

2025-08-09
风投泡沫下的AI公司:Windsurf的火速崛起与低价出售

Windsurf公司在短短八个月内ARR达到8200万美元,却以极低的价格被收购。这篇文章分析了其背后的原因:高昂的API成本导致巨额亏损,公司实际上是一个以风投资金补贴的AI人才培养项目。Google以24亿美元收购了其核心团队,而业务本身则几乎被抛弃,这暴露了AI领域人才竞争的激烈和部分公司商业模式的脆弱性。文章警告,类似的边缘化风险正威胁着许多AI公司,并非所有公司都能像Windsurf一样幸运地“卖掉作业”。

阅读更多
创业

arXivLabs:与社区协作者共建arXiv新功能

2025-08-09
arXivLabs:与社区协作者共建arXiv新功能

arXivLabs是一个允许协作者直接在arXiv网站上开发和分享新功能的框架。参与arXivLabs的个人和组织都认同并接受了arXiv关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,只与坚持这些价值观的合作伙伴合作。如果你有想法能为arXiv社区增值,那就了解更多关于arXivLabs的信息吧!

阅读更多
开发

本地化大型语言模型应用:告别云端,拥抱隐私

2025-08-09

厌倦了将数据交给云端?一群开发者打造了一款本地化大型语言模型应用,将LLM、Docker容器和无头浏览器完美结合。该应用允许LLM在本地运行,代码在轻量级虚拟机中执行,并通过无头浏览器访问互联网。用户可以进行图片、视频编辑等需要隐私保护的任务,而无需担心数据泄露。虽然Mac应用开发遇到一些挫折,但最终他们成功构建了一个功能强大的本地化工具,实现了代码和数据的本地隔离,为用户带来了前所未有的隐私保护和控制权。

阅读更多

Amtrak:美国铁路旅行的未来

2025-08-08
Amtrak:美国铁路旅行的未来

Amtrak正抓住千载难逢的机会,彻底改造美国的铁路旅行。通过对列车、车站和基础设施的现代化改造、提升和扩建,Amtrak正在满足日益增长的铁路出行需求。Amtrak提供通往46个州以及加拿大部分地区的500多个目的地的难忘体验。你可以在Amtrak.com了解更多信息,下载Amtrak应用程序,或关注其X、Instagram、Facebook和LinkedIn账号。加入Amtrak Guest Rewards计划,即可免费赚取积分,兑换Amtrak奖励旅行、升级、休息室使用权等等。

阅读更多
杂项 Amtrak

ThinkPad设计传奇:David Hill与经典之作的幕后故事

2025-08-08
ThinkPad设计传奇:David Hill与经典之作的幕后故事

本文讲述了ThinkPad传奇设计师David Hill长达22年的设计生涯。他分享了ThinkPad经典设计背后的故事,包括标志性的TrackPoint指点杆的改进、备受赞誉的蝴蝶键盘的研发历程以及ThinkLight键盘灯的灵感来源。文章还探讨了Hill未能实现的设想,例如更多采用蝴蝶键盘的ThinkPad和可折叠一体式台式机。此外,文章还描述了Lenovo收购IBM PC部门后,Hill如何领导团队打造出超薄轻便的ThinkPad X300,并成功捍卫了ThinkPad的经典设计理念。

阅读更多
科技

谷歌智能电视平台Google TV:烧钱巨亏,盈利模式迷茫

2025-08-08
谷歌智能电视平台Google TV:烧钱巨亏,盈利模式迷茫

谷歌的Google TV平台虽然拥有超过3亿月活跃用户,但其盈利模式却面临巨大挑战。文章揭露了谷歌在Google TV上的巨额亏损,以及为了争夺市场份额而与亚马逊展开的激烈的“补贴大战”。由于Google TV的盈利能力不足,谷歌正在重新评估其在智能电视领域的战略,甚至可能将其视为一项昂贵的“爱好”。与此同时,YouTube在客厅市场的成功,使得谷歌将资源更多地倾斜到YouTube,进一步削弱了Google TV的地位。

阅读更多
科技 Google TV

索尼Xperia:小而重要

2025-08-08
索尼Xperia:小而重要

尽管索尼Xperia手机在全球智能手机市场份额微不足道,且市场对其未来缺乏信心,但索尼CFO林涛表示,Xperia业务对索尼而言“非常重要”,并将继续“培育”该品牌。虽然索尼已退出美国市场,并在日本本土市场和欧洲市场份额下滑,甚至停止了自主制造设备,但索尼重申将继续其智能手机业务,并强调通信技术在索尼长期战略中的重要性,它并非只局限于智能手机领域。

阅读更多
科技 Xperia

GPT-5在Qodo的代码审查基准测试中表现出色

2025-08-08
GPT-5在Qodo的代码审查基准测试中表现出色

Qodo公司使用其私有的PR基准测试对包括GPT-5在内的多个顶级语言模型进行了评估,该基准测试模拟真实的代码审查工作流程。结果显示,GPT-5在理解代码差异、识别bug和提出改进建议方面表现突出,其“最小”版本在速度和质量之间取得了良好的平衡。虽然GPT-5也存在一些不足,例如误报和标记不一致,但其在代码审查方面的整体表现令人印象深刻,标志着AI辅助代码审查领域的一个重要进步。

阅读更多
开发

中国光伏产业的寒冬:裁员潮与产能过剩

2025-08-08

中国光伏产业遭遇寒冬,龙头企业去年裁员近三分之一,暴露出产能过剩和价格战的残酷现实。由于政府此前大力扶持,导致产能扩张过快,最终导致价格暴跌和巨额亏损。为控制局面,政府正试图干预,但地方政府的阻力以及企业自身的拖延,使得解决问题的道路充满挑战。这凸显了中央计划经济模式的风险,也预示着中国其他产业可能面临类似的困境。

阅读更多

Linux桌面市场份额突破6%:AI发展是关键?

2025-08-08
Linux桌面市场份额突破6%:AI发展是关键?

根据Lansweeper对1500万台电脑的分析,Linux桌面操作系统市场份额已超过6%,创下新高。这一增长尤其体现在消费级PC市场,而企业级市场则相对较低(1.9%)。研究显示,新设备更有可能运行Linux,并且欧洲的Linux采用率高于北美。AI开发的兴起被认为是推动Linux桌面普及的重要因素,因为它成为AI和机器学习工作负载的默认操作系统。虽然Linux桌面可能无法与macOS匹敌,但它已成为专业用户和开发者的重要选择。

阅读更多

HBO Max 将严厉打击密码共享

2025-08-08
HBO Max 将严厉打击密码共享

华纳兄弟探索公司(WBD)宣布将加大打击HBO Max密码共享的力度。该公司首席流媒体和游戏负责人表示,到2025年底将关闭漏洞,并在2026年开始对财务产生影响。此举效仿Netflix等公司,旨在通过限制密码共享来增加收入。目前,WBD已进行数月的测试以识别合法用户,并将在第四季度采取更强硬措施,要求用户采取行动而非自愿选择。尽管如此,HBO Max本季度新增了340万流媒体订阅用户,总数达到1.257亿。

阅读更多
科技 密码共享
1 2 76 77 78 80 82 83 84 1084 1085