Webtagr - 科技资讯摘要

现代CPU如何高效预测字节码解释器循环

2025-07-05

研究Python 3.14尾调用解释器的性能时，作者发现现代CPU能够高效预测字节码解释器循环中的间接跳转。这得益于先进的TAGE和ITTAGE分支预测器。这些预测器通过将程序计数器(PC)及其历史映射到过去的执行行为，并利用多种历史长度的表格来动态选择最合适的预测，从而实现高精度预测。作者进一步探讨了将ITTAGE的思想应用于覆盖率引导模糊测试和程序状态探索的可能性，认为这可能有助于更好地理解和探索解释器等程序的行为。

(blog.nelhage.com)

开发字节码解释器

CPython性能提升的意外转折：LLVM回归引发的悬念

2025-03-10

CPython最近合并了一个新的字节码解释器实现策略，最初的基准测试显示性能平均提升了10-15%。然而，这项令人印象深刻的改进主要源于无意中规避了LLVM 19中的一个回归问题。与GCC或LLVM 19的特定优化版本相比，实际性能提升仅为1-5%。作者通过几周的编译、基准测试和反汇编，揭示了LLVM 19中尾调用复制的限制导致了性能回归。虽然尾调用解释器本身是一项有价值的改进，但这次事件突显了基准测试、性能工程和软件工程中存在的挑战，例如基准选择的难度以及对编译器优化的复杂性认识不足。

(blog.nelhage.com)

开发

Stripe 的单体仓库开发者环境 - 由 Bug 构成

2024-08-19

本文回顾了作者在 Stripe 工作期间(2012-2019)该公司开发者环境的演变历程。Stripe 采用单体仓库，起初允许开发者在本地或云端运行代码，但最终决定采用基于云端开发者实例 (“devbox”) 的统一环境，以提高可靠性和可维护性。文章详细介绍了 Stripe 如何利用 devbox、同步脚本、自动加载器和 pay 命令行工具来构建高效的开发者体验，并强调了 watchman 和 LSP 等技术的应用。作者还探讨了 Stripe 的组织规模、代码库特征以及 Ruby 语言对工具选择的影响，并总结了维护开发者效率的挑战。

(blog.nelhage.com)

43

未分类单体仓库

利用 Jaccard 相似度和 MinHash 查找近似重复项

2024-07-04

本文探讨了如何利用 Jaccard 相似度和 MinHash 算法识别大型文档集合中的近似重复项。Jaccard 相似度用于度量两个集合的相似性，而 MinHash 则通过对文档特征进行哈希和比较最小哈希值来高效地估计 Jaccard 相似度。文章详细介绍了 MinHash 签名的生成过程，以及如何利用签名进行文档分组和比较，以识别近似重复项。此外，还讨论了如何通过调整参数来控制算法的灵敏度和计算成本。

(blog.nelhage.com)

56

未分类 Jaccard 相似度 MinHash 近似重复项