Webtagr - 科技资讯摘要

从零构建大型语言模型：向量、矩阵与高维空间

2025-09-06

本文是三篇关于大型语言模型 (LLM) 工作原理的“现状”文章中的第二篇，目标读者是像2022年中期的我一样，对AI没有深入了解的科技爱好者。文章延续了作者学习Sebastian Raschka的《从零构建大型语言模型》系列的第19部分，解释了LLM中向量、矩阵以及高维空间（词汇空间和嵌入空间）的运用。作者指出，理解LLM的推理过程只需要高中水平的数学知识，而训练过程则需要更复杂的数学。文章详细解释了向量在高维空间中的表示，以及矩阵乘法如何实现不同高维空间之间的投影，并将其与神经网络中的线性层联系起来。

(www.gilesthomas.com)

AI

从零开始构建大型语言模型：注意力机制的奥秘

2025-05-11

本文深入探讨了大型语言模型中自注意力机制的工作原理。作者通过分析多头注意力和层叠机制，解释了为什么看似简单的矩阵乘法能够实现复杂的功能。核心观点是：单个注意力头功能简单，但通过多头注意力和层叠，可以构建出复杂、丰富的表示。这类似于卷积神经网络中逐层提取特征的过程，最终实现对输入序列的深刻理解。此外，文章还阐述了注意力机制如何解决RNN模型中固有的固定长度瓶颈问题，并通过例子解释了注意力机制中查询、键和值空间的作用。

(www.gilesthomas.com)

AI

从零开始构建大型语言模型：深入研究Dropout

2025-03-20

本文记录了作者学习Sebastian Raschka的《从零开始构建大型语言模型》一书中关于Dropout的章节。Dropout是一种正则化技术，通过在训练过程中随机忽略一部分神经元或权重来防止模型过拟合，从而使知识更广泛地分布在模型中。作者详细介绍了Dropout的实现方法，并探讨了在大型语言模型中应用Dropout时的一些细节问题，例如对注意力权重或值向量应用Dropout以及如何重新平衡矩阵。文章还提到了实际应用中Dropout率的选择，以及处理更高阶张量以处理批次数据的问题，为后续学习提供了铺垫。

(www.gilesthomas.com)

开发 Dropout

从零开始构建大型语言模型：详解自注意力机制

2025-03-05

本文是博主学习Sebastian Raschka的《从零开始构建大型语言模型》系列文章的第八篇，详细讲解了自注意力机制的实现。文章首先回顾了GPT类解码器Transformer模型的工作流程，包括词元嵌入、位置嵌入、自注意力机制、注意力权重归一化以及上下文向量生成等步骤。然后，作者重点解释了如何使用可训练权重实现自注意力机制，特别是“缩放点积注意力”的原理。作者将权重矩阵解释为在不同维度空间中的投影，并利用矩阵乘法高效地计算注意力权重和上下文向量。最后，文章总结了整个过程，并展望了后续学习内容，包括因果自注意力和多头注意力。

(www.gilesthomas.com)

AI 自注意力机制

在AI时代，博客写作还有意义吗？

2025-02-25

作者探讨了在ChatGPT等AI盛行的时代，博客写作的价值。虽然AI可以轻易获取和整合信息，但博客写作依然重要：它能巩固自身知识，帮助他人，建立个人品牌（虽然这很难单靠博客实现），获得成就感，以及构建写作作品集，展现思考能力，为职业发展加分。作者认为，AI对博客的影响主要在于降低了读者互动带来的成就感，但这并不足以否定博客的价值。

(www.gilesthomas.com)

开发

博客作者总结：深度学习笔记的价值

2025-02-24

一位博客作者在病休期间回顾过往博文，发现最受欢迎的文章都遵循一个模式：学习新技能并将其总结成教程。他认为这种写作方式不仅能巩固自身知识，还能帮助他人。这些教程式博文，如同作者当初学习时渴望找到的资料一样，为读者提供了深入浅出的学习指南。未来，作者将继续创作更多类似的“TIL深度挖掘”文章，分享学习心得。

(www.gilesthomas.com)

杂项