新论文:重要的 AI 智能体
这篇论文探讨了人工智能代理(AI agents)的现状,分析了其定义、发展前景、面临的挑战以及评估方法。作者认为,虽然 AI 代理的概念被炒作,但其发展潜力巨大,尤其是在提高可靠性和成本控制方面。论文重点讨论了 AI 代理评估中存在的缺陷,并提出了五项建议:实施成本控制评估、联合优化准确性和成本、区分模型和下游基准测试、防止代理基准测试中的捷径以及提高代理基准测试的标准化和可重复性。
阅读更多
这篇论文探讨了人工智能代理(AI agents)的现状,分析了其定义、发展前景、面临的挑战以及评估方法。作者认为,虽然 AI 代理的概念被炒作,但其发展潜力巨大,尤其是在提高可靠性和成本控制方面。论文重点讨论了 AI 代理评估中存在的缺陷,并提出了五项建议:实施成本控制评估、联合优化准确性和成本、区分模型和下游基准测试、防止代理基准测试中的捷径以及提高代理基准测试的标准化和可重复性。
阅读更多
研究人员开发出了一种新策略,该策略有望实现通用的、持久性的流感疫苗。这种策略通过靶向流感病毒的保守区域来实现,从而可以对抗所有流感病毒株。该策略在动物模型中显示出了良好的效果,有望为流感预防带来突破。
阅读更多
Herbie 网络演示页面允许用户输入公式,并利用 Herbie 工具对其进行改进。用户需要输入变量的近似范围,并使用 FPCore 表达式编写公式。由于请求量大,网页请求可能会排队或超时,建议用户在本地安装 Herbie 以获得更好的体验。
阅读更多
Bin-graph是一个基于C语言开发的开源工具,可以将二进制文件可视化为不同区域的图像。它支持多种图形模式,并依赖于libpng库来导出图像。用户可以通过命令行参数指定输入文件、输出图像文件以及图形模式等选项。该工具还提供了一个名为bin-graph-section.sh的脚本,可以与readelf和grep配合使用,用于可视化二进制文件中特定区域的内容。
阅读更多
本文探讨了俄罗斯方块游戏确切发行年份的争议。虽然一些资料将1984年列为发行年份,但文章指出,大量证据表明,俄罗斯方块直到1985年才正式发行。文章质疑了将1984年作为发行年份的动机,暗示这可能是公关公司为了方便宣传而修改的。
阅读更多
本文讲述了作者在制作地图过程中寻找免费且合适的黑白灰度瓦片集的经历。作者首先尝试了 Stamen Toner,但因使用量超过免费额度而放弃。之后尝试了德国联邦制图局提供的 WMS TopPlusOpen 灰色瓦片集,但发现其瓦片覆盖范围不均匀。最终,作者选择使用 OpenStreetMap 提供的彩色瓦片,并通过 CSS 将其转换为灰度,成功解决了问题。
阅读更多
DeepSeek v3 在基准测试中取得了最先进的性能,其训练计算量却远低于同类模型。这得益于其在Transformer架构上的几项关键改进:多头潜在注意力(MLA)机制显著减小了KV缓存大小,无需牺牲模型质量;改进的混合专家(MoE)方法通过辅助损失免费负载平衡和共享专家策略解决了路由崩溃问题;多标记预测则提升了训练效率和推理速度。这些改进体现了DeepSeek团队对Transformer架构的深刻理解,为大型语言模型的发展指明了方向。
阅读更多
本文追溯了约翰·奥哈拉小说《相约萨马拉》题词的来源。该题词讲述了一个人试图逃脱死神的故事,但最终还是在预定的地点死去。文章指出,这个故事的最终来源很可能是巴比伦塔木德,之后经由鲁米、科克托、毛姆等人的改编和转述,最终成为奥哈拉小说的题词。
阅读更多
本文是对澳大利亚著名作家雪莉·哈扎德的一次访谈。访谈中,哈扎德谈到了她的写作生涯、作品主题、对文学的热爱以及对人生和世界的独特见解。她认为,文学的力量在于能将人们连接在一起,让人们在共同的体验中找到共鸣。访谈还涉及了她与其他作家、艺术家交往的经历,以及她在意大利的生活点滴。
阅读更多
BBC新闻健康版块报道了最新的健康和医学新闻,涵盖广泛主题,包括疾病、治疗、预防和健康生活方式。文章由专家撰写,提供可靠的信息和见解。该网站还提供健康小贴士、食谱和交互式工具,帮助用户改善健康和福祉。
阅读更多
本文提出了一种名为“特殊字符攻击”(SCA) 的新型攻击方法,旨在从大型语言模型(LLMs)中提取训练数据。研究发现,LLMs 容易记住训练数据,而某些特殊字符或其与英文字母的组合可以作为更强的记忆触发器,导致数据泄露。SCA 利用 LLM 训练数据中大量存在的特殊字符(如 JSON 文件的结构符号、电子邮件和在线帖子中的 @、# 等),通过诱导模型回忆这些特殊字符与原始文本之间的共现关系,从而泄露训练数据。实验结果表明,SCA 攻击效果显著,可以泄露代码库、网页、个人身份信息等各种训练数据,甚至导致模型生成不停顿的输出。
阅读更多
UltraBlock 是一款适用于 Chrome、Edge 和 FireFox 的浏览器扩展程序,它能够屏蔽广告、不可见的追踪器和第三方 Cookie,使网站加载速度更快,并防止第三方在线追踪用户。它拥有一个包含 25,288 个主机名的广告和追踪器数据库,通过识别和屏蔽不必要的广告和追踪器来保护用户隐私。UltraBlock 还提供其他隐私保护功能,例如自动删除第三方 Cookie、清除浏览器缓存以及随机化用户代理。
阅读更多
特斯拉近期解雇了至少10%的员工,解雇过程混乱,甚至需要保安通过扫描员工证件来确定被解雇者。其中一名被解雇员工尼科·穆里洛为了延长工作时间,睡在车里,在工厂淋浴。穆里洛在特斯拉工作了五年,从初级生产助理晋升到生产主管,但最终还是被解雇。这表明,即使对公司付出再多,也未必得到相应的回报。
阅读更多
Bashbro 是一款基于 Bash 的开源 Web 文件浏览器,允许用户通过 Web 浏览器远程浏览、查看文档和保存文件。用户可以通过命令行启动 bashbro,并指定端口号。该项目提供了一种便捷的方式来管理远程服务器上的文件。
阅读更多
这篇演讲探讨了在游戏《毁灭战士》的源代码中修改圆周率的值以及其他三角函数和常数所带来的影响。演讲者将展示当这些数学常数被改变后,游戏世界会发生怎样的变化,以及玩家在游戏中的体验将会如何改变。此外,演讲还将探讨非欧几何在游戏中的应用可能性,并简要介绍一些为使游戏在当时硬件上良好运行而采用的优化技巧。
阅读更多
米兰大学的研究发现,与以恒定速度持续行走相同的距离相比,短时间爆发式步行或爬楼梯会消耗20%到60%的能量。研究人员解释说,身体在开始活动和进入状态时比稳定状态下消耗更多能量,类似于汽车从怠速状态加速到高速行驶时消耗更多汽油。
阅读更多
文章探讨了互联网安全协议 DNSSEC 的采用率低下的问题,并分析了其背后的原因。作者认为,与广泛使用的 TLS 相比,DNSSEC 存在成本高、效益低、部署复杂等缺点,导致其在市场竞争中处于劣势。文章还探讨了 DANE 等替代方案,但最终得出结论,DNSSEC 在目前的形式下不太可能成功。作者呼吁反思 DNSSEC 的设计,以使其更简单、更快速、更健壮。
阅读更多
该网站分享了作者从卡车司机到Rails开发人员的职业转变旅程。文章详细介绍了作者的学习过程、资源和建议,旨在激励和指导其他人进行类似的转变。作者强调了始终学习、保持好奇心、利用资源和建立人际网络的重要性。网站还提供了有用的链接和资源,进一步支持文章主题。
阅读更多
2024年5月8日,一架联邦快递波音767-300货机在执行从法国巴黎戴高乐机场飞往土耳其伊斯坦布尔的FX-6238航班时,因前起落架出现异常指示,机组人员在距地面约1800英尺的高度启动了复飞。约25分钟后,飞机对16R跑道进行了低空飞越,准备再次进近16R跑道,并于当地时间约08:17(UTC时间05:17)在前起落架未放下的情况下降落在16R跑道上,事故中无人受伤。
阅读更多
普林斯顿大学的天体物理学家J. Richard Gott、Robert Vanderbei和德雷塞尔大学的David Goldberg合作,创造了一种全新的世界地图。这幅地图是双面的圆形地图,类似于黑胶唱片,可以准确地显示地球两侧,并最大限度地减少了视觉失真。与其他试图在平面上传递球体信息的地图不同,这种新地图在距离误差方面有一个上限,最多不超过22.2%。此外,地图边缘的区域仅比中心区域大1.57倍。
阅读更多
冷战结束后,人们乐观地认为全球化将统一全球社会的价值观,围绕个人权利和自由的自由主义理念趋同。然而,芝加哥大学的一项新分析表明,社会价值观并未趋同,反而日益分化。这种分歧在富裕国家和贫穷国家之间最为明显。研究发现,在过去四十年中,人们对同性恋、安乐死、离婚、卖淫和堕胎等问题的伦理看法差异越来越大。富裕国家的人们对所有这些话题都越来越能接受,而贫穷国家的人们则越来越不能接受。这种差异的原因可能是,尽管贫穷国家的社会变得更加富裕,但他们的财富收益仍然不稳定。政治不稳定、冲突和环境灾难的威胁可能导致人们更加保守、民族主义,以及不信任他人。
阅读更多
Live Science是一家科学新闻网站,提供来自各个科学领域的最新科学发现和研究。它涵盖主题,包括生物学、化学、物理学、天文学、地球科学、技术、环境科学和健康。该网站还提供科学主题的视频、播客和其他互动内容。
阅读更多
本文探讨了数据可视化中使用双轴图表(dual axis charts)的弊端,并提供了替代方案。作者指出,双轴图表容易误导读者对两组数据之间关系的理解,因为双轴图表的比例可以被任意操纵。文章提出了四种替代方案:并排图表(side-by-side charts),指数图表(indexed charts),优先级排序和标签(prioritizing & labeling),以及连接散点图(connected scatterplot)。作者认为,在大多数情况下,前两种方案最为实用。
阅读更多
这篇文章介绍了如何在没有乘法器的 10 美分 RISC-V MCU 上实现神经网络。它描述了一种自定义神经网络架构,该架构使用移位和加法操作来代替乘法。这允许在低成本 MCU 上实现神经网络,从而可以将机器学习应用于各种嵌入式应用程序。
阅读更多
K-Scale Labs 是一家获得 Y Combinator (W24) 支持的初创公司,致力于通过构建开源人形机器人来彻底改变机器人技术。公司正在寻找一位经验丰富的首席运营官 (COO) 加入其位于帕洛阿尔托的团队。首席运营官将负责公司的日常运营、制定业务战略和扩展团队,以及与中国制造商建立牢固的关系,精通中文和熟悉中国文化者优先。
阅读更多
本文批评了一些AI公司偷偷爬取开放街图(OSM)数据进行训练的行为,并呼吁这些公司停止这种行为,尊重开源社区的劳动成果。文章指出,OSM的数据是志愿者们辛苦收集和维护的,AI公司应该公开透明地使用这些数据,并回馈开源社区。
阅读更多