低成本盲人实时图像描述方案:ESP32-CAM + 手机 + 服务器
该项目利用ESP32-CAM、手机和服务器构建了一个低成本的实时图像描述解决方案,旨在帮助盲人理解周围环境。ESP32-CAM 定期拍摄图像,通过 OpenAI API 获取图像描述,然后通过手机上的网页实时语音播报。虽然目前的原型存在一些不足,例如需要手动持握相机且安全性有待提高,但它证明了该方案的可行性,并为未来开发更完善的辅助工具提供了基础。
阅读更多
该项目利用ESP32-CAM、手机和服务器构建了一个低成本的实时图像描述解决方案,旨在帮助盲人理解周围环境。ESP32-CAM 定期拍摄图像,通过 OpenAI API 获取图像描述,然后通过手机上的网页实时语音播报。虽然目前的原型存在一些不足,例如需要手动持握相机且安全性有待提高,但它证明了该方案的可行性,并为未来开发更完善的辅助工具提供了基础。
阅读更多
英国政府宣布将在今年晚些时候在其数字服务中全面推广Passkeys技术,以取代现有的基于短信的验证系统。此举预计每年可节省数百万英镑,并显著提升安全性。这一决定与英国政府的数字化转型计划相符,并得到了国家网络安全中心(NCSC)的支持,NCSC 也已加入FIDO联盟。Passkeys 的使用将为用户提供更快速、更安全的登录体验,并有效抵御网络钓鱼攻击。微软、亚马逊等企业也已开始采用Passkeys技术,全球无密码登录的趋势日益明显。
阅读更多
疫情期间,朋友寻求提升Zoom会议音频质量的方法,这篇文章分享了作者使用Audio Hijack(取代Reaper)、BlackHole虚拟音频驱动和DAW(数字音频工作站)的解决方案。通过创建聚合音频设备,巧妙利用BlackHole的双通道特性(一个用于Zoom麦克风,一个用于扬声器),并在DAW中进行音频路由和混音,最终实现了高质量的音频输入输出,并能监控混音、录制和分享系统声音等功能。此方法避免了Zoom自带音频处理的限制,让用户拥有对音频的完全掌控。
阅读更多
韩国人对泡菜的热爱,催生了一种独特的家用电器——泡菜冰箱。它并非简单的储藏,而是为泡菜的发酵和保鲜量身定制。从1984年LG的前身GoldStar推出首款泡菜冰箱开始,经过多年的技术革新,如今市面上已有众多品牌,并从最初的单一顶部设计发展到多抽屉式等多种款式,以满足不同的空间和使用需求。泡菜冰箱能够精准控温、保持湿度,并减少空气流动,为泡菜创造最佳的发酵环境,甚至有些型号还配备了紫外线杀菌功能。在2004年的一项韩国家庭主妇调查中,泡菜冰箱荣登最受欢迎家用电器榜首,可见其在韩国家庭中的重要地位。
阅读更多
作者尝试在笔记本电脑上使用Alpine Linux作为日常驱动器半年。Alpine Linux以其快速启动、优秀的包管理系统和轻量级著称。然而,作者发现Alpine使用musl库而非glibc,导致部分软件兼容性问题,特别是对于需要glibc的实验性软件。虽然可以通过gcompat、自行编译或使用Flatpak等方式解决,但这增加了额外的摩擦。最终,作者决定尝试其他发行版,例如Void Linux或Debian,以寻求更好的兼容性和稳定性。
阅读更多
作者回顾了NetBSD的构建系统,一个基于BSD make和shell脚本的强大而独特的系统。它允许在任何POSIX平台上,无需root权限,构建完整的NetBSD系统,并支持多种硬件架构的交叉编译。文章详细介绍了构建过程,包括工具链生成、构建结构、destdir机制、无权限构建以及发行版媒体创建等。尽管NetBSD构建系统存在一些不足,例如增量构建效率低和依赖关系管理不完善,但其设计理念依然值得学习。作者最后提到正在使用NetBSD开发一个嵌入式项目,并考虑将NetBSD的构建系统迁移到Bazel,以提升构建效率。
阅读更多
一位开发者通过优化Dav1d视频解码器中结构体的内存对齐,显著提升了其解码性能。他通过调整结构体成员的顺序和数据类型,减少了内存碎片,并将64位处理器上的8字节对齐优化到极致。测试结果显示,在处理1080p和4K视频时,解码时间分别减少了约0.5%和2.8%。这项优化充分展现了细致的内存管理对性能提升的重要性,也为其他C/C++项目的优化提供了借鉴。
阅读更多
作者尝试多年构建“第二大脑”式的个人知识管理系统,却发现其变成了知识的坟墓,阻碍了思考和创造。最终,他删除了所有笔记和资料,选择了一种更轻盈、更注重体验的知识管理方式。他意识到,真正的知识并非储存在数据库中,而是体现在行动和生活中。这篇文章探讨了个人知识管理的陷阱与反思,以及回归本真、注重体验的价值。
阅读更多
受到WikiTok的启发,这款名为Wiki Radio的应用会播放维基百科上传的各种音频,从政治演讲到鸟鸣,甚至还有动感的音乐,内容丰富多样。它就像一场声音的冒险,你永远不知道下一秒会听到什么,惊喜与意外并存。想要体验更短的音频片段?试试“Revolution 9模式”吧!
阅读更多
本文讲述了作者如何使用Haskell中的广义代数数据类型 (GADTs) 简化Agda编译器后端的开发。作者面临着为两种不同的Lambda Box中间语言目标(类型化和非类型化)编写编译器的挑战。通过巧妙运用GADTs和依赖类型,作者避免了代码重复,并利用类型系统强制执行类型安全,确保在类型化目标中不会遗漏类型信息。这篇文章不仅展示了GADTs在实际编程中的实用性,也提供了一个简洁明了的案例,说明了依赖类型如何帮助程序员避免错误。
阅读更多
作者因TurboTax软件错误多缴了12000美元税款,历经三年才成功追回。2022年3月,作者使用TurboTax报税,因行权激励股票期权(ISO)的复杂规则,TurboTax软件重复录入了ISO收入,导致多缴税款。尽管作者提交了修正申报,但IRS处理缓慢,且修正申报因TurboTax软件错误遗漏表格而被拒绝。最终,作者在寻求国会议员帮助后,才于2025年3月拿回税款及利息。作者呼吁简化税务流程,并提醒大家不要过度依赖TurboTax等软件。
阅读更多
一位资深软件工程师,厌倦了虚拟世界的编程,渴望在现实世界中创造。他入手了Bambu Lab X1C 3D打印机,并迅速掌握了3D打印技巧。随后,他开始学习Fusion 360 CAD软件,惊讶地发现其约束概念与iOS UI约束类似,参数化CAD设计也与函数式编程异曲同工。他的第一个项目是一个过度设计的摄像头支架,旨在解决摄像头遮挡屏幕的问题。这个项目不仅让他体验了3D打印和CAD设计的乐趣,也让他深刻认识到设计中需要考虑制造、材料等细节。
阅读更多
xPong是一款融合了大型语言模型(LLM)解说功能的乒乓游戏。开发者历经五年,终于利用OpenAI的gpt-4o-mini-tts技术实现了实时AI解说。游戏包含15年历史的锦标赛模拟,AI球员之间对决,解说系统分为开场、比赛过程和结束三个部分,并根据比赛事件动态调整。它甚至能根据历史数据进行类比,并加入一些趣味性元素。xPong不仅是一款游戏,更是展示了LLM技术在游戏领域应用的潜力。
阅读更多
美国国家点火装置(NIF)的净正能量核聚变实验取得重大进展,能量输出已从去年的3.15兆焦提升至8.6兆焦,再次证明可控核聚变并非遥不可及的幻想。尽管目前该装置的能量消耗仍远大于能量输出,但这一突破为未来清洁能源的开发提供了新的希望。NIF采用惯性约束方法,利用192束强大的激光束压缩氘氚燃料球,使其发生核聚变反应。相比之下,磁约束方法虽然尚未实现净正能量输出,但也有多个项目正在进行中。
阅读更多
MYND蓝牙音箱的设计理念是可持续性,其长寿命设计体现在易于维修的结构和可更换电池上。工业设计师Erik和电气工程师Jonathan分享了其开发过程,强调了可持续材料的选择、简化的内部结构以及开源的软件和硬件设计。用户可以轻松更换电池,甚至使用公开数据自行组装或改装音箱,赋予了产品极高的可玩性和可持续性。
阅读更多
本文揭秘了美军B-2隐形轰炸机执行40小时超长飞行任务的惊人细节。B-2机组人员如何在狭小的机舱内轮流休息,利用简易的折叠床、微波炉和化学厕所维持作战能力?文章详细描述了一次从密苏里州到利比亚再返回的超长飞行任务,以及机组人员在空中加油、执行轰炸任务和应对突发事件中的经历。此外,文章还对比了B-1、B-2和B-52三种轰炸机的机组休息设施和任务特点,并探讨了B-2飞行员的严格选拔和培训过程。B-2的成功,不仅在于其先进的隐形技术,更在于其对机组人员人因工程的重视。
阅读更多
苏黎世联邦理工学院(ETH Zurich)和Polariton Technologies的研究人员共同研发出一种新型等离子体光电调制器,其工作频率高达1.14太赫兹,是目前常用调制器的十倍以上。这项突破性进展解决了现代电信网络中电信号与光纤互联的瓶颈问题,为即将到来的6G网络和高性能AI数据中心提供了关键技术支撑。该调制器利用等离子体技术,将光信号转化为表面等离子体激元,并在极小的金属槽中与电信号进行高效交互,从而实现高速率、高带宽的数据传输。Polariton公司已将该技术商业化,并将为下一代数据中心和AI集群提供高速、紧凑的收发器。
阅读更多
本文探讨了“科技封建主义”的概念,即大型科技公司是否如同中世纪的封建领主一样控制着数字领域。作者认为,虽然科技公司确实拥有巨大的权力和影响力,但将两者简单类比存在偏差。数字空间的开放性、用户的自主参与性、激烈的市场竞争以及不断发展的监管体系都与封建制度截然不同。虽然数据垄断和平台支配力确实存在,但用户也能从中获得便利和收益,并且新兴平台不断涌现,挑战着巨头的统治地位。因此,我们需要更 nuanced 的视角来理解当今的数字经济,而非简单地套用历史框架。
阅读更多
本文探讨了米制单位的起源,并非源于1790年代的法国,而是可能追溯到4500年前的古埃及。文章指出,吉萨金字塔的尺寸蕴含着π、黄金比例等数学常数,以及与现代米制单位惊人的关联。通过一系列计算,作者推测古埃及人可能早已掌握米制,并以此为基础推导出肘尺等单位。这挑战了我们对度量衡史的传统认知,暗示着古代文明的科技水平可能远超我们的想象。
阅读更多
二十年前,“你不会偷车”的反盗版广告战役家喻户晓。如今,一项新发现却揭示了该广告的巨大讽刺:其宣传材料可能使用了名为“XBAND Rough”的盗版字体,该字体是1992年Just Van Rossum设计的FF Confidential字体的克隆版。尽管广告本身旨在打击盗版,但其自身却可能使用了盗版字体,这引发了广泛的讨论和关注。字体原作者对此表示“哭笑不得”。
阅读更多
一名记者Alistair Kitchen因报道哥伦比亚大学学生抗议活动,在美国被拘留并驱逐出境。他在抵达墨尔本后取回了手机。此事突显了新闻自由面临的挑战。
阅读更多
作者讲述了他撰写《100 个 Go 语言错误及如何避免》一书的历程。从最初在瑞士用Go语言编写PoC开始,到克服各种挑战,包括更换工作、与出版商沟通、应对编辑和审稿人的反馈,以及最终出版发行,作者分享了整个过程中的心路历程和经验教训。其中包括与编辑的磨合、读者反馈的价值、以及对自身写作能力的提升。最终,这本书获得了成功,并被翻译成多种语言。作者还反思了写作的意义和收获,以及对金钱和名利的淡然态度。
阅读更多
历经27年研发,耗资数十亿美元,Vertex制药公司终于成功研发出首个非阿片类止痛药Journavx(苏泽替格)。该药靶向作用于外周神经元上的钠离子通道NaV1.8,阻止疼痛信号传递至大脑,从而有效缓解术后疼痛,且无成瘾性、耐药性及戒断症状等阿片类药物的副作用。这项突破性进展,是科学界对离子通道研究的巨大胜利,也为战胜阿片类药物成瘾危机带来一线希望,但其价格和应用范围仍有待进一步完善。
阅读更多
NASA曾尝试通过游戏推广太空探索,2009年与游戏工作室合作开发了月球基地模拟游戏《Moonbase Alpha》。这款游戏因其独特的DECtalk语音合成系统意外走红,玩家用其创作出各种歌曲,成为一个网络现象。然而,后续的宏大太空MMO《Starlite:宇航员学院》却因资金和内部矛盾最终夭折,留下一个充满遗憾的故事。
阅读更多
mkosi是一个强大的工具,它简化了定制化操作系统镜像的构建过程。它巧妙地封装了dnf、apt、pacman和zypper等包管理器,允许用户轻松创建包含各种附加功能的个性化磁盘镜像。无论是添加新的发行版、构建RPM包、创建自定义initrd还是构建系统扩展,mkosi都能提供便捷的支持,极大地提高了构建效率。
阅读更多
近日,YouTuber Der8auer 对一起RTX 5090 显卡熔毁事件进行了深入调查。尽管许多人将责任归咎于用户使用第三方16针电源线,但Der8auer 的测试发现,即使使用官方线材,RTX 5090 的12VHPWR 接口也存在严重的电流分配不均问题,其中一根线缆电流超过22A,温度超过150摄氏度,最终导致熔毁。这并非个例,提示Nvidia 的12VHPWR 接口设计可能存在缺陷,需要进一步改进。
阅读更多
NASA科学家的一项最新研究揭示了地球磁场强度与大气氧气含量之间长达5亿年的关联。研究表明,地球内部深处的过程可能影响着地表生命的宜居性。通过分析地磁记录和古氧气水平数据,研究人员发现两者呈现出惊人的相似波动趋势,这暗示两者可能受同一潜在过程(例如大陆板块运动)驱动。这一发现为理解生命演化与地球内部过程之间的联系提供了新的视角,但具体机制仍需进一步研究。
阅读更多
网络安全公司发现了一种名为OtterCookie的新型恶意软件,该软件正被朝鲜黑客组织用于“Contagious Interview”行动中,通过伪造的招聘信息诱骗软件开发者下载恶意软件。OtterCookie通过Node.js项目或npm软件包传播,能够窃取加密货币钱包密钥、文件、图像等敏感信息。攻击者还会利用Socket.IO WebSocket工具与命令控制服务器进行通信,并执行系统命令进行数据窃取和环境侦察。安全专家建议开发者谨慎对待网络招聘信息,避免运行可疑代码。
阅读更多
苹果机器学习研究人员开发了一种名为Activation Transport (AcT) 的新技术,该技术能够对大型生成模型(包括语言模型和图像生成模型)的输出进行精细控制,而无需大量的计算资源或数据。与传统的强化学习或微调方法不同,AcT 通过操纵模型的激活来实现对输出的引导,具有模型无关性和低计算开销的优点。实验结果表明,AcT 在减少模型输出中的毒性、提高生成文本的真实性以及控制图像生成风格等方面都取得了显著成效。这项技术为构建更安全、更可靠的生成模型提供了新的途径。
阅读更多
纽约地铁管理局(MTA)正在测试一项名为“TrackInspect”的创新项目,该项目利用搭载在列车上的谷歌Pixel手机,通过手机内置麦克风和运动传感器收集轨道振动和声音数据,然后将数据上传到谷歌云进行AI分析,从而高效地识别轨道缺陷。试点项目收集了海量数据,AI准确识别了92%的人工确认的轨道缺陷。这项技术有望减少延误,加快维修,提高地铁可靠性,并可能改变整个地铁系统的轨道检测方式。
阅读更多