核手提箱 海洋云增白 可扩展服务 policy 颈挂空调 计算机硬件 极端主义 PostgreSQL AI工具 儿童读物 化学 即时消息 代码审查 反向工程 KDE 数据安全 效率工具 超级计算机 植物学 分析化学 插图 Three.js 泄露 大会 初创 Verizon 海水淡化 GPT-3 加速器项目 更多

使用Python和OpenCV从扫描书籍中提取单词 (github.com)

这篇教程介绍了如何使用Python和OpenCV从扫描书籍页面中提取单个单词。教程首先将图像转换为灰度并应用阈值来增强文本和页面背景之间的对比度。然后,它使用OpenCV函数检测文本行并按其在页面上的位置对其进行排序。最后,它将单词及其对应的坐标存储在一个数组中,以便于通过选择数组中相应的项目来显示页面上的任何单词。

公司对数据中心的渴望程度空前,甚至在建成前就已租赁 (sherwood.news)

由于数据中心建设水平处于历史高位,公司对数据中心的需求空前高涨,甚至在建成前就已租赁。美国在建的数据中心容量约占现有容量的一半,其中84%已被租赁。数据中心空置率保持在3.7%的历史低位,租金同比上涨19%。由于电力、光纤和水资源等基础设施的建设需要时间,数据中心的建设周期很长,预计未来几年需求仍将持续增长,租金也将继续上涨。

为什么神经网络难以掌握生命游戏 (bdtechtalks.com)

这篇文章探讨了为什么神经网络难以掌握生命游戏。生命游戏是一个基于网格的自动机,由简单的规则产生复杂的模式。研究人员发现,小型神经网络难以学习生命游戏的规则,即使手动调整参数也无法达到最佳设置。为了提高准确性,需要增加神经网络的规模和复杂性,但这会导致更高的训练成本和能源消耗。研究人员认为,这些发现表明,需要研究改进搜索算法或提高大型网络效率的方法。

搜索用户希望关闭谷歌AI概述功能 (www.seroundtable.com)

谷歌搜索结果中的AI概述功能引发了用户强烈不满。许多用户涌向谷歌网络搜索帮助论坛,寻求关闭该功能的方法,但谷歌表示目前无法选择退出。用户抱怨AI概述功能提供的信息不准确,侵犯了内容创作者的权益,并严重影响了搜索体验。

DNA鉴定证实英国乡村存在大型猫科动物 (www.discoverwildlife.com)

英国湖区一只死亡绵羊的拭子中检测出了豹属大型猫科动物的DNA,这是首次在英国的动物尸体上发现大型猫科动物的DNA。该分析由华威大学Robin Allaby教授的实验室进行。Allaby教授表示,从动物尸体上提取DNA非常困难,但这次的结果毫无疑问。他还提到,12年前,在格洛斯特郡斯特劳德附近的一个小峡谷中发现了一具被食腐动物啃食过的狍子尸体,但只在上面发现了狐狸的DNA。这次发现的黑猫DNA被认为很可能是一只豹子,因为豹子是豹属中唯一拥有类似黑色形态的猫科动物。

高阶公司:计算的并行未来 (hvm-page.pages.dev)

高阶公司正在开发一种名为Bend的并行编程语言,它可以让用户在不需要成为C/CUDA专家也能为多核CPU/GPU编写并行代码,其体验类似于Python。Bend由HVM并行运行时提供支持,HVM基于Yves Lafont在1997年提出的交互组合器并发计算模型,该模型在基本方面超越了图灵机和λ演算。

在生命游戏中寻找蒙娜丽莎 (kevingal.com)

本文探讨了如何使用SAT求解器在生命游戏中寻找能够演化成特定图像的状态。作者首先解释了生命游戏的规则,并说明了如何将黑白图像加载为生命状态。然后,作者详细介绍了如何构建布尔方程来表示目标状态的父状态必须满足的条件,并使用SAT求解器来寻找解决方案。作者还讨论了该方法的局限性,例如存在伊甸园状态,以及随着细胞数量的增加,问题的复杂性也会增加。最后,作者展示了一些实验结果,包括蒙娜丽莎、花朵、玛丽莲·梦露和史蒂夫·布西密等图像的父状态。

如何在家里种植氯化钠晶体 (crystalverse.com)

本文详细介绍了如何在家里种植透明的氯化钠晶体。文章首先解释了氯化钠的晶体结构,并指出了用普通食盐进行结晶实验的局限性。随后,文章详细列出了所需的材料,包括非碘盐、锅、勺子、过滤器、罐子、平底容器等。文章还提供了制备饱和盐溶液的步骤,包括溶解盐、加热溶液、过滤杂质等。接下来,文章讲解了如何培育晶种,并用镊子将晶种转移到新的容器中进行生长。文章强调了稳定的生长环境的重要性,并建议用另一个容器盖住设置以限制蒸发。最后,文章展示了不同生长速度下的晶体形态,以及如何通过调整条件获得星形晶体、白色立方体、幻影晶体和盐金字塔等特殊形态的晶体。

使用 Hoot 为 Lisp 游戏 Jam 制作游戏! (spritely.institute)

Lisp 游戏 Jam 是一个为期 10 天的游戏开发活动,参与者可以使用他们最喜欢的 Lisp 方言创建小型游戏。Spritely Institute 鼓励开发者们使用 Hoot(他们的 Scheme 到 WebAssembly 编译器)来参与这场游戏开发盛会。文章重点介绍了 Hoot 的优势,特别是它对 Web 浏览器的支持,这使得游戏发布和玩家体验变得更加容易。此外,文章还提供了游戏开发模板和社区支持资源,帮助开发者顺利参与游戏开发活动。

如何在 24 小时或更短时间内修复错误 (www.dolthub.com)

DoltHub 承诺在 24 小时内修复 Dolt 正确性错误。他们通过以下方式实现:迅速识别错误、确定优先级(区分错误和功能)、高质量的代码和测试、以及发布自动化。Dolt 有完善的规范和测试流程,能够快速识别和修复错误。发布自动化流程使客户能够快速获得修复程序。快速修复错误建立了客户对 Dolt 的信任,这对一个只有 5 年历史的开源 SQL 数据库至关重要。

计算机科学家发明了一种高效的新计数方法 (www.quantamagazine.org)

本文介绍了一种名为CVM的新算法,用于估算长列表中不同条目的数量。该算法利用随机性,仅需记住少量条目,即可有效地监控数据流并估算唯一元素的数量。文章以莎士比亚戏剧《哈姆雷特》为例,详细说明了该算法的工作原理:通过多轮随机选择和删除单词,最终根据剩余单词数量和概率推算出不同单词的总数。研究证明,该算法的准确性随内存大小的增加而提高。

简化JOIN语法 (JOIN简化与加速系列 3) (github.com)

文章介绍了三种简化JOIN语法的方法:外键属性化、同维表互联和子表集合化。外键属性化将外键字段视为维度表中的对应记录,从而简化JOIN语句。同维表互联利用主键相同,记录一一对应的特点,将两个表视为一个表进行操作。子表集合化将子表视为主表的一个字段,通过集合操作简化JOIN和GROUP BY语句。

SQL 已年满 50 岁!查询语言的未来方向是什么? (coderoasis.com)

SQL 编程语言已经诞生 50 周年。它最初设计用于管理数据库中的数据,如今已成为开发者必备的技能之一。尽管 SQL 的语法复杂且存在数据库供应商特有的差异,但其基于强大的数学理论,能够有效地处理数据。SQL 随着时代发展不断更新,支持 JSON、XML、YAML 等数据格式,甚至可以与矢量数据结合使用,用于生成式 AI 应用。尽管 NoSQL 和自然语言处理等技术试图取代 SQL,但 SQL 仍然是数据交互的核心,其重要性在未来可能会更加凸显。

中国科技新闻发生在即刻应用程序上 (restofworld.org)

即刻是一款在中国科技工作者、投资者和行业专家中备受欢迎的小众社交媒体平台,它结合了Twitter的及时性和Reddit的兴趣社区的特点。用户可以关注彼此,加入以特定主题为中心的讨论“圈子”。尽管即刻的用户群与微博和微信相比微不足道,但它是大型互联网公司创始人和大牌风险投资公司合伙人的最爱,因为它没有应用内广告或算法推送内容,而是鼓励通过精心策划的主题和深入的讨论进行积极参与。

美国从燃气发电厂向电池的大规模转变 (theprogressplaybook.com)

美国正在经历从燃气发电厂向电池的大规模转变。数据显示,电池存储在新电力设施中的占比正在迅速增加,而燃气发电厂的占比则急剧下降。这一转变的主要原因是电池存储的经济优势和可再生能源发电的增长。尽管取得了进展,美国仍有很长的路要走才能实现电力系统的脱碳。

人工智能辅助编程,成品归属何方? (www.theregister.com)

本文探讨了在人工智能辅助编程的背景下,代码所有权的归属问题。作者通过自身使用GPT-4进行编程的经历,指出当前法律对人工智能生成内容的版权归属尚不明确,这使得包含人工智能生成部分的代码的版权归属变得模糊不清。作者认为,尽管人工智能编码工具可以提高生产力,但忽视其带来的版权风险可能会导致软件公司失去对其核心代码的所有权。

Scheme 程序员的进化 (erkin.party)

这篇文章以幽默的方式,展示了一个Scheme程序员从初学到精通的不同阶段。每个阶段都用Scheme代码示例来表现程序员的编程风格和对Scheme语言的理解程度,例如从简单的递归到复杂的Y组合子和CPS转换等。

奥地利茨文滕多夫核电站 (www.atlasobscura.com)

茨文滕多夫核电站是奥地利第一座也是唯一一座核电站,虽然建成但从未投入使用。该电站建于20世纪70年代中后期,耗资约10亿欧元,配备了当时先进的沸水反应堆。然而,在公众的强烈反对下,1978年的一项公投以略高于50%的优势投票禁止所有核电站,导致该电站被搁置。

二进制女妖和数字恶魔 (thephd.dev)

这篇文章探讨了C和C++中ABI(应用程序二进制接口)的复杂性及其对语言演变的影响。作者详细介绍了ABI如何限制改进,并引用了诸如intmax_t、std::regex和std::polymorphic_allocator等示例来说明这个问题。作者还批评了实现者在ABI稳定性方面的决策,认为这些决策阻碍了语言的进步,并表达了对未来提案面临类似挑战的担忧。

城市更新如何毁掉一切 (darrellowens.substack.com)

本文探讨了美国城市更新运动的破坏性后果,指出它导致美国对大规模建设项目的恐惧。作者认为,城市更新项目摧毁了黑人中产阶级社区,留下了大量闲置土地,抹去了历史街区,造成了混乱的 freeway 系统,并导致了人口外迁。文章批评了城市更新项目自上而下的规划方式,以及由此产生的繁琐的公共流程和否决点,这些都导致项目成本高昂且效率低下。作者还批判了环境法的误用,认为它阻碍了碳减排项目的发展。最后,作者将美国与中国进行了对比,指出中国政府能够有效地规划和建设城市,而美国则陷入了对城市更新创伤的恐惧之中,无法应对未来的需求。

Arch Linux RISC-V (archriscv.felixc.at)

Arch Linux RISC-V是Arch Linux移植到RISC-V架构的项目。 该项目支持RV64GC硬件基线和lp64d ABI, 并官方支持QEMU、HiFive Unmatched、HiFive Unleashed 和 PolarFire SoC Icicle Kit等硬件。 该项目的目标是尽可能地将补丁向上游合并到Arch Linux中,最终使riscv64 (riscv64gc) 成为Arch Linux的替代架构。

互联网首个搜索引擎Archie获救并重新运行 (arstechnica.com)

本文讲述了YouTube频道The Serial Port团队拯救互联网第一个搜索引擎Archie的故事。Archie是由Alan Emtage于1989年在麦吉尔大学读书期间创建的,它允许搜索当时规模很小的网络中的各种“匿名”FTP服务器。The Serial Port团队历经艰辛,最终找到了Archie的最后一个工作版本,并将其运行在一个模拟的Sun SPARCstation 5上。

特殊字符攻击:从大型语言模型中可扩展地提取训练数据 (arxiv.org)

本文提出了一种名为“特殊字符攻击”(SCA) 的新型攻击方法,旨在从大型语言模型(LLMs)中提取训练数据。研究发现,LLMs 容易记住训练数据,而某些特殊字符或其与英文字母的组合可以作为更强的记忆触发器,导致数据泄露。SCA 利用 LLM 训练数据中大量存在的特殊字符(如 JSON 文件的结构符号、电子邮件和在线帖子中的 @、# 等),通过诱导模型回忆这些特殊字符与原始文本之间的共现关系,从而泄露训练数据。实验结果表明,SCA 攻击效果显著,可以泄露代码库、网页、个人身份信息等各种训练数据,甚至导致模型生成不停顿的输出。

数据科学家需要了解的数据库知识 (josiahparry.com)

本文针对数据科学家需要掌握的数据库知识进行了阐述。文章首先指出了数据科学家需要了解数据库才能使其分析工作规模化,并列举了一些需要掌握的数据库相关概念,例如关系型数据库管理系统、主键、外键、数据库规范化、模式、视图、表索引等。此外,文章还介绍了Parquet、Apache Arrow和DuckDB等工具,指出数据科学家可能并不需要完整的RDBMS,利用这些工具可以更高效地进行数据分析工作。

冷战时期的机械运动:苏联如何彻底改变了手表 (www.collectorsweekly.com)

本文讲述了苏联手表工业的崛起与衰落。苏联在20世纪30年代通过购买美国破产的钟表制造商,并引进技术和人才,建立了自己的钟表工业。在二战后,苏联手表工业迅速发展,成为全球第二大钟表生产国,其手表以精准、耐用和价格实惠著称。然而,随着苏联经济在20世纪80年代陷入停滞,手表工业也开始衰落。苏联解体后,俄罗斯未能重振其钟表业的辉煌。

欢迎 - 100个练习让你学会Rust (rust-exercises.com)

本文介绍了Rust学习课程“100 Exercises To Learn Rust”,该课程以练习的方式讲解Rust的核心概念,包括语法、类型系统、标准库和生态系统。课程适合无Rust基础但有其他编程语言经验的学习者,采用“边做边学”的互动式教学,并提供配套的GitHub代码库和练习题解决方案,学员可以通过 wr 命令验证自己的解答。

我一点都没有夸张: (honeypot.net)

作者添加了一个新的主机名到DNS,并在3秒内就收到了针对/.git/config的404请求。作者以此说明依靠模糊性来保护服务是不可靠的,攻击者会很快找到目标。文章列出了攻击者尝试访问的其他文件路径,强调了信息安全的重要性。

NetBSD 提交指南 (www.netbsd.org)

本文档描述了 NetBSD 项目的代码提交指南,包括提交代码的质量要求、测试要求、提交信息的规范、代码审查的流程以及对其他开发者提交的代码的处理方式等。

从传输协议视角看星链 (www.potaroo.net)

本文分析了星链服务的特性以及TCP协议如何与其交互。文章指出,星链服务的特点是信号强度变化大、延迟波动大、需要定期切换卫星以及与其他用户共享传输介质。这些特点对TCP协议的性能有很大影响。文章比较了CUBIC和BBR两种TCP拥塞控制算法在星链环境下的性能表现,并提出了一些优化TCP协议以提高星链连接性能的建议。

西部数据推出新款 6TB 2.5 英寸外置硬盘,七年来首次升级 (www.anandtech.com)

西部数据发布了新款6TB 2.5英寸外置硬盘,这是七年来该尺寸硬盘的首次升级。新款硬盘将用于升级My Passport、Black P10和G-DRIVE ArmorATD系列产品。新款硬盘没有单独销售,仅供外置存储产品使用,读写速度并未公布,但由于厚度增加,很可能采用了SMR技术来提高存储密度。所有新款外置硬盘均采用USB 3.2 Gen 1接口,售价179.99美元起。

1 2 4 6 7 8 9 102 103