无需训练,大型语言模型即可感知图像和声音
一项令人惊叹的研究表明,大型语言模型(LLM)无需任何额外训练即可理解图像和音频。研究人员通过巧妙的设计,利用现有的LLM模型结合图像字幕、音频字幕和高质量图像生成技术,实现了LLM对图像和声音的“感知”。该项目开源了代码和数据集,方便研究人员复现和进一步探索。
阅读更多
一项令人惊叹的研究表明,大型语言模型(LLM)无需任何额外训练即可理解图像和音频。研究人员通过巧妙的设计,利用现有的LLM模型结合图像字幕、音频字幕和高质量图像生成技术,实现了LLM对图像和声音的“感知”。该项目开源了代码和数据集,方便研究人员复现和进一步探索。
阅读更多
丹麦一名工程师在朋友的麦田里用金属探测器意外发现了一批1500年前的黄金饰品,其中包括一枚刻有“他是奥丁的人”铭文的护身符,这是迄今为止发现的最古老的奥丁书面记载,将奥丁的崇拜历史提前了150年。这得益于丹麦独特的金属探测政策,允许爱好者探测并上交文物,极大地推动了考古研究,使得丹麦的考古发现远超邻国。
阅读更多
历经八年,备受期待的《PF宝典》第四版终于开启预售!作者Peter Hansteen解释了此次更新的原因:为了适应现代互联网环境,特别是OpenBSD 7.8和FreeBSD 14-STABLE系统。新版内容更新,但结构和章节标题与旧版相似,并更侧重于FreeBSD。此次更新还得到了Max Stucchi和Tom Smyth等人的协助,历经多次会议和教程打磨而成。第四版将重点关注OpenBSD和FreeBSD的PF,并将在2025年下半年上市,届时还将在EuroBSDcon 2025上进行相关教程。
阅读更多
Eta Labs 的一个项目对 Linux 上几种不同的标准库实现进行了比较,重点关注功能丰富性和膨胀之间的平衡。文章通过表格和注释比较了 musl、uClibc、dietlibc 和 glibc,涵盖了大小、性能、行为、ABI、算法、特性、目标架构和构建环境等多个方面。结果显示,musl 在大小和性能方面表现出色,glibc 功能最全但体积最大,uClibc 和 dietlibc 介于两者之间。该比较还考虑了资源耗尽情况下的鲁棒性以及安全性,为开发者选择合适的标准库提供了参考。
阅读更多
iOS 18.4 推出了新的控制中心环境音效功能,提供睡眠、放松、专注和健康等模式。令人惊喜的是,无需 Apple Music 订阅即可使用该功能。作者在尝试使用该功能的过程中,发现需要安装音乐App,并且其不支持*.flac文件。文章介绍了使用ffmpeg命令行工具或XLD/Audio Converter软件将*.flac文件转换为Apple的无损格式*.m4a的方法,并分享了一个转换脚本。最终,作者通过有线连接,将转换后的音乐同步到iPhone,并建议为了避免Apple Music对音乐文件的潜在干扰,使用有线传输音乐。
阅读更多
本文档提供了关于学术论文写作的实用指南,重点关注如何避免在定义和表达方面常见的错误。文章强调了清晰简洁的写作风格的重要性,并提供了多种改进建议,例如避免在定义中使用多余的逗号,避免双重定义,以及将表达式视为单一单元,以提高论文的可读性和准确性。这对于希望提升学术写作水平的研究者具有重要的参考价值。
阅读更多
本文探讨了科技如何改变我们体验世界的方式。作者以一次加勒比海邮轮之旅为例,指出“体验”与“真实经历”的差异。前者是精心设计的、人为控制的伪现实,后者则是与世界真实互动的过程。作者批评了诸如Google艺术项目之类的科技,认为它们将“体验”包装成优于真实经历的替代品。文章进一步探讨了我们为何偏好便利的“体验”,并认为这与现代生活节奏和时间紧迫有关。最终,作者呼吁我们重新拥抱现实中的摩擦和不确定性,通过亲身经历而非科技模拟来获得更深刻、更有意义的生活体验。
阅读更多
Nano-vLLM是一个轻量级的vLLM实现,仅用约1200行Python代码构建,却能实现与vLLM相当的推理速度。它包含一系列优化,例如前缀缓存、张量并行、Torch编译和CUDA图等。通过pip install git+https://github.com/GeeeekExplorer/nano-vllm.git安装,并参考example.py使用。基准测试显示,在RTX 4070 Laptop (8GB)上使用Qwen3-0.6B模型进行测试,其吞吐量甚至略高于vLLM。
阅读更多
苹果计划对其iOS、iPadOS和macOS操作系统进行重大UI改版,并同时采用全新的命名方案。未来将不再使用版本号(例如iOS 19),而是以年份命名(例如iOS 26)。此举旨在简化版本管理,方便用户区分软件的更新程度,并统一不同操作系统(如visionOS和watchOS)的版本编号体系。新系统预计将于2025年9月左右发布,但苹果通常会在秋季或冬季之后才强制用户更新,以确保系统稳定性。
阅读更多
本文介绍了一种在Bash脚本中优雅处理`set -e`引发的错误的技巧。通过使用`trap 'echo "Exit status $? at line $LINENO from: $BASH_COMMAND"' ERR`,可以在脚本出错时打印出错行号、错误命令和退出状态等信息,方便调试。该技巧利用了Bash特有的`$LINENO`、`$BASH_COMMAND`环境变量和`ERR` trap条件。其他shell如sh的实现存在差异,可能无法完全实现该功能。
阅读更多
一位技术爱好者将旧iPhone 8改造成了一个全天候运行的OCR服务器,并使用太阳能供电。这套系统由iPhone 8(运行SwiftUI应用程序和Apple Vision OCR)、EcoFlow River 2 Pro电源站、一台小型电脑(处理网络服务和API路由)以及Tailscale网络组成。一年多来,该系统处理了超过83,000次OCR请求和48GB的图像数据,每月节省7-10美元的电费。虽然从纯成本角度来看可能不划算,但这套系统在可持续计算和本地AI处理方面具有示范意义,体现了节能、隐私和本地计算的优势。
阅读更多
一篇博文介绍了生态学和进化生物学论文中一些非传统的作者排序方法。从字母顺序排序到篮球技能比拼,甚至还有抛硬币、玩剪刀石头布、烘焙比赛等奇葩方法。作者收集了大量案例,例如,用曲棍球比赛、随机数生成器、地理位置、实用性考虑、博弈论以及掷骰子决定作者顺序。其中最有趣的案例是根据烘焙布朗尼蛋糕的比赛结果来决定作者排序。文章还提到了一个因作者排序争议而撤稿的论文,以及一些使用代码或其他创新方法确定作者排序的例子。这篇文章以幽默的口吻,展现了科研人员在处理作者排序问题时的各种创意和无奈。
阅读更多
LibriVox社区播客发布了四期新节目(#154-#157),内容涵盖了社区活动回顾、志愿者贡献、项目状态更新以及一些有趣的文学作品选读。每一期节目都邀请了多位社区成员参与讨论,分享他们的经验和感受,体现了LibriVox社区的活力与凝聚力。节目中还公布了最新的统计数据和里程碑事件,展现了社区持续的进步和发展。
阅读更多
Pebble团队重返智能手表市场,却面临着iOS平台开发的巨大挑战。文章回顾了Pebble一代在iOS平台上遇到的诸多限制,例如无法发送短信、回复通知、与其他iOS应用交互等,并指出这些问题在八年后甚至更加严重。苹果公司对第三方开发者设置的诸多限制,被作者认为是其为了维护自身生态系统而采取的策略,而非出于安全或隐私考虑。文章呼吁用户向苹果公司施压,并支持相关的反垄断立法,以改善第三方智能手表在iOS平台上的开发环境。
阅读更多
VPN提供商VPNSecure的新老板取消了所有终身订阅,激怒了用户。新老板声称在收购时并不知道终身订阅的存在,无法履行之前的承诺。这一举动导致用户投诉不断,VPNSecure被迫给出解释,并提供折扣订阅作为补偿。然而,此举并未平息用户的愤怒,事件凸显了企业收购中信息披露和责任承担的重要性。
阅读更多
一项新的研究发现,南大洋的海洋环流发生了前所未有的逆转。自2016年以来,南极洲极地和副极地环流之间区域的表面盐度持续上升,这表明南半球的深层海洋环流(SMOC)不仅发生了改变,而且发生了逆转。深层富含热量和二氧化碳的海水上升到海面,加速了海冰融化,并可能加剧气候变化。这项突破性发现得益于ICM-CSIC研发的卫星数据处理算法,该算法克服了南大洋观测的困难,为气候变化研究提供了关键信息。
阅读更多
作者厌倦了传统调试器的繁琐,尤其是gdb和lldb在原生代码调试中的无力感。他发现IntelliJ IDEA的“Run to Cursor”和“Quick Evaluate Expression”功能组合,可以将调试器转变为强大的REPL环境。通过“Run to Cursor”将程序运行到光标所在行,再用“Quick Evaluate Expression”在当前栈帧中评估表达式,甚至可以输入新的代码并执行,实现了高效的代码探索和实验。这种方式摒弃了传统的单行命令交互,而是利用编辑器的二维文本界面,提供代码补全等特性,极大提升了调试效率。
阅读更多
Standard Thermal公司致力于开发一种利用廉价土堆储热的太阳能系统,目标是使太阳能发电的价格与美国天然气的价格竞争。该系统利用太阳能光伏板发电,并将电能转化为热能储存在大型土堆中,再通过管道中的流体将热能输送给用户。与电池相比,该技术的成本低廉,可用于满足工厂、发电厂或城镇的热能需求,并有望最终用于改造燃煤电厂,实现季节性电力存储。
阅读更多
本文探讨了编程中“不变式”的概念及其应用。作者从一个小例子——编写一个计算插入点的二分查找变体——出发,阐述了如何通过明确定义并维护不变式来编写正确的代码。 文中指出,不变式是一种在系统动态演变过程中始终保持的属性,它能够简化推理过程,避免因考虑多种执行路径而带来的复杂性。 作者还以Cargo、rust-analyzer和TigerBeetle等项目为例,展示了在大型系统中应用不变式带来的好处,例如提高代码可维护性和性能。最终,作者总结了不变式在小规模和大型编程中的重要作用,强调了其在编写正确且高效代码中的价值。
阅读更多
波音公司星际线飞船项目副总裁Mark Nappi离职,由国际空间站项目经理John Mulholland接任。Nappi自2022年以来领导该项目,期间经历了重大的工程问题和测试事故。星际线飞船项目因其推进系统问题,在去年夏季的载人测试任务中被迫空载返回,NASA认为其风险过高。目前,波音和NASA尚未决定星际线飞船的下一个任务是什么,是否需要重复载人飞行测试才能获得NASA的认证。
阅读更多
2012年,日本数学家望月新一发表了一篇500页的论文,声称利用其创立的“宇宙际泰赫穆勒理论”(IUT)证明了困扰数学界40年的ABC猜想。然而,其证明过于复杂晦涩,只有少数人声称理解。数年后,两位德国数学家发现该证明存在致命缺陷,但望月新一及其支持者拒不承认。最终,望月新一的论文在其担任主编的期刊上发表,引发巨大争议。如今,一位美国数学家声称解决了这场论战,但其说法也未被广泛接受。这场持续十余年的争论,凸显了数学证明的复杂性和验证的困难,也反映了学术界存在的争议和分歧。
阅读更多
只有3.8%的开发者同时体验到AI生成的代码幻觉低且信心高,他们才是真正从AI生产力中受益的团队。他们信任AI的建议,加快了交付速度,并通过高质量的反馈闭环改进。在低幻觉的群体中,那些充满信心的开发者(17%)更有可能看到代码质量提升(44% vs 35%),并且对交付AI代码更有信心(24% vs 9%)。这部分开发者构成了“最佳状态”,其中一半以上(53%)报告代码质量得到明显改善,这表明准确性、质量和信心之间存在强关联。当开发者看到更少的错误和更高质量的输出时,他们更有可能信任AI并在生产中使用它。即使输出准确,多数开发者仍然犹豫,这时自动化质量检查就能弥合差距。
阅读更多
索尼正在秘密研发AI驱动的游戏角色原型,泄露的视频显示《地平线:西之绝境》中的艾洛伊(Aloy)能够通过语音提示与玩家进行对话。该技术结合了OpenAI的Whisper、GPT-4、Llama 3以及索尼自研的EVS和Mockingbird技术,可在PC和PS5上运行。虽然目前仅为内部原型,但这预示着AI在游戏角色互动中的巨大潜力,同时也引发了关于AI对游戏开发和配音演员的影响的讨论。
阅读更多
YouTube首席执行官Neal Mohan宣布,在美国,电视已成为YouTube观看的主要设备,超过了移动设备。这表明YouTube已成为新型电视平台,提供互动式体验,包括Shorts、播客和直播等,与传统的体育、情景喜剧和脱口秀节目并行。YouTube在尼尔森月度报告中持续领先,并投资于YouTube TV,用户已超过800万。未来,YouTube将继续专注于文化中心地位,支持播客创作者,改进创作者的盈利能力,并利用AI工具简化视频创作过程,例如提供视频创意、标题和缩略图建议以及自动配音功能,以覆盖更广阔的受众。
阅读更多
美国第六巡回上诉法院推翻了联邦通信委员会(FCC)的网络中立性规则。该规则要求宽带运营商平等对待所有互联网流量,禁止其对某些网站给予优先待遇。法院的裁决部分基于最高法院去年的Loper Bright案,该案撤销了长期存在的Chevron原则,限制了监管机构的权力。FCC主席表示,国会需要制定联邦法律来保障网络中立性,而另一位委员则称赞了这一裁决,认为它扭转了拜登政府对互联网的过度监管。
阅读更多
安全研究人员发现一款名为Catwatchful的安卓间谍软件存在严重SQL注入漏洞,攻击者可以访问其数据库并获取所有用户的登录信息,包括密码。该软件声称具有隐身功能,但研究人员成功地利用漏洞获得了近6.2万个账户的明文密码和其它用户信息。该漏洞已报告给相关云服务提供商,但服务一度恢复并转移域名后才被最终关闭。
阅读更多
在微服务架构盛行的时代,级联故障和重试风暴是开发者挥之不去的噩梦。BreakerMachines,一个基于Ruby的库,就像一位守护神,通过巧妙的电路断路器机制,保护你的系统免受这些灾难的侵袭。它利用battle-tested的state_machines gem,提供经典模式和Fiber模式,支持异步操作,并提供多种配置选项,让你能够根据服务的关键程度和流量大小,灵活调整断路器的阈值和超时时间。BreakerMachines不仅能有效防止级联故障,还能通过可视化仪表盘和智能告警,帮助你快速定位问题,提升系统的稳定性和可靠性。
阅读更多
一位Deus Ex速通玩家因Linux平台缺乏合适的速通计时工具,决定自己动手,用D语言编写一个能够自动分割和去除加载时间的计时器。这篇文章详细描述了整个过程,从寻找加载标志的失败尝试,到学习Linux系统调用(ptrace和process_vm_readv),再到利用反汇编和内存映射找到合适的内存位置进行代码注入,最终实现了计时器的核心功能。作者分享了在D语言开发中的经验,并指出了目前计时器的一些不足之处,例如对异常处理和存档屏幕的处理不够完善。
阅读更多
全球博士毕业生数量持续增长,尤其在中国和印度更是呈爆炸式增长。然而,学术界职位远远无法满足如此多的毕业生,许多大学的博士培养与实际就业脱节。这引发了对博士教育改革的呼声,需要使其更贴合社会和劳动力市场需求。尽管许多毕业生在科技等领域找到了与专业相关的职位并感到满意,但在人文社科等领域,许多人面临着就业难和专业错位的问题,博士学位的光环似乎正在褪去。
阅读更多
John Young,这位89岁辞世的信息自由斗士,于1996年与妻子共同创立了Cryptome,一个致力于公开政府和企业隐秘信息的在线图书馆。Cryptome收集并发布了大量关于言论自由、隐私、加密技术和国家安全的资料,成为“加密战争”时期不可或缺的信息来源。尽管面临FBI、秘密特勤局和科技巨头的打压,Young始终坚持他的理想,为信息民主化贡献一生。Cryptome也曾参与WikiLeaks的早期组织工作,但后来因理念不合而分道扬镳。Young的毕生追求,是让信息公开透明,造福大众。
阅读更多