Greenmask 是一款功能强大的开源工具,用于逻辑数据库备份转储、匿名化、合成数据生成和恢复。它基于 PostgreSQL 库,可靠且与现有 PostgreSQL 工具向后兼容。Greenmask 提供确定性转换器、动态参数、模式差异、分区表转换继承等功能,适用于备份和恢复、匿名化、数据屏蔽等场景。
阅读更多
大型语言模型(LLM)通常在“语言空间”中进行推理,使用思维链(CoT)解决复杂问题。然而,语言空间并非总是最优的,因为许多词语对推理并非必要,而一些关键词语又需要复杂的规划。本文介绍了一种新的范式Coconut(连续思维链),它利用LLM的最后一个隐藏状态作为推理状态(称为“连续思维”)的表示,并将其直接反馈给LLM作为后续输入嵌入,而不是将其解码为词语标记。实验表明,Coconut可以有效地增强LLM在多个推理任务上的性能。这种新的潜在推理范式带来了高级推理模式:连续思维可以编码多个替代的推理步骤,允许模型执行广度优先搜索(BFS)来解决问题,而不是像CoT那样过早地提交到单一的确定性路径。在某些需要大量回溯的逻辑推理任务中,Coconut的性能优于CoT,并且推理所需的思维标记更少。
阅读更多
这篇来自公民实验室的报告分析了微信使用的主要网络协议MMTLS的安全和隐私属性,发现MMTLS是TLS 1.3的修改版本,但微信开发者对加密的修改引入了弱点。早期的微信版本使用了一种不太安全的自定义协议“业务层加密”,这种加密方式在现代微信版本中仍在使用。尽管研究人员未能完全破解微信的加密,但其实现与拥有10亿用户的应用程序的加密级别不符,例如使用确定性IV和缺乏前向安全性。报告还讨论了腾讯开发的自有域名查找系统NewDNS,该系统旨在对抗中国的DNS劫持问题,但其安全性仍待进一步研究。
阅读更多
作者回顾了其二十年的博客生涯,从2004年在Sun公司鼓励员工博客的氛围下开始,到使用WordPress,再到如今迁移至自主研发的Oxide云平台。作者的博客记录了技术发展历程(DTrace、Solaris、ZFS、KVM、Manta、Triton、Hubris、Humility)、职业变迁(Sun、Joyent、Oxide),以及个人生活感悟。作者认为博客的价值在于记录和分享,并鼓励大家从内心出发进行写作。
阅读更多
Bluesky等Twitter替代平台在日本迅速流行。截至10月,Bluesky在日本安卓端的月活跃用户数量同比增长五倍,而Twitter同期数据下降。11月前两周,Bluesky的日活跃用户数持续增长。
阅读更多
这篇文章介绍了一个名为 Ambulate 的行程规划工具,但由于网页需要 JavaScript 支持才能正常运作,因此无法获取更多信息。
阅读更多
OmniParser 是一种用于解析用户界面截图的综合方法,旨在提高大型视觉语言模型在不同操作系统和应用程序中的代理系统运行能力。它包含两个专门模型:一个用于解析屏幕上可交互区域的检测模型,以及一个用于提取检测到的元素的功能语义的描述模型。OmniParser 在 ScreenSpot、Mind2Web 和 AITW 基准测试中显著提高了 GPT-4V 的性能,并优于需要截图以外额外信息的 GPT-4V 基线。
阅读更多
Brush是一款使用高斯 splatting 技术的3D重建引擎,致力于实现高可移植性、灵活性和速度。它支持跨平台运行,包括 macOS、Windows、Linux、Android 以及浏览器,并使用 WebGPU 兼容技术。该项目目前仍处于概念验证阶段,但已具备加载预训练模型、加载数据集进行训练、实时交互等功能。Brush 使用 Rust 编写,依赖性小,可在几乎所有设备上运行,与机器学习实时渲染的潜力相符。
阅读更多
本文介绍了一种名为“数组枚举”(EoA)的数据结构,它与常用的“结构体数组”(SoA)类似,但将枚举类型作为数据结构的核心。EoA 通过将多个枚举值打包成一个数组,并使用单个标签标识整个数组的类型,从而减少了内存占用和分支预测开销,提升了数据处理效率,尤其适合 SIMD 优化。文章以数据库系统 TigerBeetle 为例,解释了 EoA 如何在批量处理中发挥作用,有效地分离控制平面和数据平面,从而实现更高的性能。
阅读更多
Frondly 是一款人工智能驱动的植物识别应用程序,可以通过拍摄植物照片立即识别植物,并提供定制的护理指南。它还提供了一个人工智能植物专家聊天功能,用户可以从中获得个性化的护理技巧、有趣的事实以及对所有植物问题的解答。
阅读更多
欧盟人工智能法案将人工智能模型按用途分为不同风险类别,并施加严格限制。高风险AI系统,例如AI教师,在发布前需满足繁琐的合规要求,包括风险管理、数据质量、技术文档、人为监督等。通用AI模型,如大型语言模型,则根据其能力被指定为系统性风险,面临额外监管。法案的执行权分散到各成员国,导致监管碎片化,合规成本高昂,不利于初创企业发展。文章批评该法案误解了AI的收益来源,过度监管阻碍了AI创新,呼吁欧盟重新审视并修改法案。
阅读更多
作者委托芝加哥刀匠Sam Goldbroch打造一把日式菜刀,亲眼见证了其融合艺术与原子能量的精湛技艺。Sam将不同钢材层层叠加,如同炼金术般,通过锻造、加热、压制、扭曲等步骤,最终打造出具有独特纹理的“大马士革钢”刀坯。整个过程充满了神秘感,刀匠仿佛操控着火焰和金属,将看似简单的工具转化为一件艺术品,也映射出刀匠克服童年创伤,掌控火与金属的励志人生。
阅读更多
本文介绍了在macOS沙盒环境下发现多个逃逸漏洞的研究。作者发现了一个被忽视的攻击面:存在于PID域中的XPC服务,这些服务通常没有对传入的XPC客户端进行额外的权限检查或沙盒检查。通过枚举系统框架中的XPC服务,作者发现了多个新的沙盒逃逸漏洞,例如CVE-2023-27944、CVE-2023-32414、CVE-2023-32404、CVE-2023-41077、CVE-2023-42961、CVE-2024-27864和CVE-2023-42977等,并详细描述了漏洞利用过程和补丁方案。此外,文章还讨论了如何通过删除或创建不带隔离扩展属性的目录来实现完全沙盒逃逸。
阅读更多
海力士开始量产全球首款 321 层 NAND 闪存,这是一款基于三层单元的 4D 内存,容量为 1Tb。继去年 6 月推出 238 层 NAND 后,海力士通过堆叠技术的突破,成为全球首家超过 300 层的 tNAND 供应商。与 238 层器件相比,321 层器件写入时间缩短了 12%,读取时间缩短了 13%。该公司计划从明年上半年开始向客户提供 321 层产品。通过采用“3 塞”工艺技术,超过 300 层的堆叠成为现实。该工艺在三次塞孔工艺完成后,通过优化的后续工艺连接三个塞孔。为此,海力士开发了一种低应力材料,并引入了自动校正塞孔间对准的技术。通过在 321 层产品上采用与 238 层 NAND 相同的开发平台,该公司还将生产率提高了 59%。
阅读更多
软件开发中,传统的设计文档加渐进式开发模式并不总是高效。作者Doug Turnbull提出了一种“代码冲刺”方法:先用临时PR快速实现原型,尽早获得团队反馈,完善设计后再逐步拆分出可部署的PR。这种方法鼓励快速迭代,尽早发现问题,并认为代码本身就是最好的文档。虽然设计文档在特定情况下仍有价值,但作者更推崇“行动胜于言辞”,通过代码原型快速验证和迭代,从而更高效地完成软件开发。
阅读更多
本文探讨了除了财富、权力和自我牺牲之外,普通人也能为世界做出贡献的被低估的方式。作者列举了七种方法:成为第二个勇敢的人,站出来支持揭露真相的人;创造一个“场景”,与志同道合的人一起努力;充当“交换机”,将正确的信息传递给需要的人;像科学家一样,利用自己的自由进行独立研究;积极参与文化建设,传播好的内容;在政府部门踏实工作,解决实际问题;以及建立自己的“例行事务”(RUNK),持续提供有用的服务。作者鼓励每个人找到适合自己的方式,为世界带来积极改变。
阅读更多
Anthropic 发布了升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 在编码方面取得了显著进步,并引入了计算机使用功能,允许开发者指导 Claude 像人类一样操作计算机。Claude 3.5 Haiku 则以更低的成本和更高的速度提供了与 Claude 3 Opus 相当的性能。
阅读更多
本文介绍了抗体偶联药物(ADC)的发展历程、作用机制、面临的挑战以及临床应用。ADC由单克隆抗体、化疗药物和连接子三部分组成,通过将化疗药物精准递送至癌细胞,提高疗效并减少副作用。文章重点介绍了ADC药物Enhertu的成功案例,及其在HER2阳性乳腺癌等多种癌症治疗中的显著疗效。此外,文章还列举了FDA已批准的ADC药物以及正在进行临床试验的ADC药物,并强调了ADC在癌症治疗领域的巨大潜力。
阅读更多
本文讲述了蒂姆·詹金开发了一种加密通信系统,帮助非洲人国民大会(ANC)在种族隔离时期安全通信的故事。该系统使用一次性密码本加密信息,并通过录音带和声耦合调制解调器传输。詹金的系统在ANC推翻种族隔离制度的过程中发挥了关键作用,而该系统的代码在多年后被解密并开源,成为了一份重要的历史文件。
阅读更多
本文比较了 C# 和 Rust 的借用检查器,探讨了 C# 如何通过 ref、ref struct 和 stackalloc 等特性实现内存安全。文章指出,C# 的借用检查不如 Rust 明确,缺乏生命周期标注,但通过垃圾回收机制和限制 ref 的使用范围也实现了内存安全。C# 的堆引用类似 Rust 的 'static 生命周期,拥有更大的灵活性,但也导致 ref 不能用于 lambda 捕获或类成员变量。文章认为 C# 和 Rust 的内存管理策略虽然方向相反,但却越来越相似。
阅读更多
本文讨论了弦理论目前的危机,引用了Lenny Susskind的观点,他承认弦理论无法描述我们所处的世界,需要新的理论。Susskind批评了Peter Woit的工作,认为其缺乏价值,但Woit指出,弦理论领域几十年来的研究方向已明显失败,过于依赖共识可能会阻碍新想法的出现。文章还提到了Susskind对弦理论扩展到dS空间的尝试,以及他对其他一些非主流观点的看法。
阅读更多
Llama Coder是一个开源项目,使用 Meta 的 Llama 3.1 405B 和 Together.ai 构建 Claude 工件,允许用户通过一个提示生成小型应用程序。它还利用了其他技术,如用于代码沙盒的 Sandpack、Next.js 应用程序路由器和用于可观察性的 Helicone。
阅读更多
本文介绍了两个全新研发的德语解码模型LLäMmlein 1B和120M。该项目涵盖了数据预处理、自定义分词器创建以及训练设置优化等关键步骤。通过在SuperGLEBer基准测试中的评估,LLäMmlein模型表现出与同等规模模型相当或更优的性能,其中1B模型甚至能与更大规模的模型相媲美。目前,预印本、基础模型和聊天调优模型均已发布,代码和数据也将很快开源。
阅读更多
Delta游戏模拟器开发者Riley Testut为了鼓励用户使用Patreon订阅,在其iOS应用中将苹果应用内购买价格提高了三倍。此举既利用了苹果允许开发者链接外部支付平台的新政策,又表达了对苹果应用内支付系统的抗议。Patreon订阅提供更多功能,例如对iPad和SEGA Genesis的支持以及私人Discord群组访问,且退款和客户支持也更加便捷。
阅读更多
本文介绍了保罗·兰德为NeXT电脑设计的logo及其设计理念。兰德从众多字体中选择合适的样式,并最终确定以小写字母“e”作为视觉焦点,搭配黑色立方体,形成独特的logo。该设计方案颜色鲜明,富有活力,旨在吸引年轻用户。文章详细阐述了兰德的设计思路,包括字体选择、颜色搭配、logo倾斜角度等,并展示了logo在各种场景下的应用效果。
阅读更多
作者讲述了其公司 Podia 逐渐脱离 Heroku 平台的过程。Podia 早期受益于 Heroku 的便捷性,但随着 Salesforce 收购 Heroku 后平台停滞不前,以及 Heroku 的各种问题(如 CI 中断、强制维护期、附加组件的高额抽成等),Podia 开始逐步迁移。他们首先将 CI 转移到 GitHub Actions,数据库迁移到 CrunchyData 和 redis.com,以此避免 Heroku 的强制维护期和高额附加组件费用。目前,Podia 只保留了 Heroku 的核心网络和后台进程,并根据成本和收益权衡是否完全迁移。作者建议 Heroku 用户将附加组件转为直接计费、将数据库迁移到托管数据库提供商、将 CI 迁移到其他平台,并根据成本和收益考虑是否迁移计算资源。
阅读更多