数据几何:缺失的度量张量和Stein得分[第二部分]

2024-11-14

本文探讨了数据几何中的度量张量,特别是从Stein得分推导出的新型度量张量。Stein得分是日志密度的梯度,用于衡量日志密度对数据变化的敏感性。文章提出了一种利用Stein得分外积构建度量张量的方法,并通过添加单位矩阵使其正定,从而能够有效计算数据流形上的测地线。文章使用二维高斯分布示例,展示了如何通过优化能量泛函来找到数据流形上的测地线,并解释了测地线弯曲的原因。最后,文章展望了该度量张量在Langevin采样等方面的应用潜力,以及与扩散模型和物理学的联系。

阅读更多

大型语言模型数据管道和通用抓取(WARC/WAT/WET)

2024-06-19

本文介绍了训练大型语言模型(LLM)的数据管道,重点介绍了使用通用抓取(CC)数据集的流程。文章详细解释了CC数据集的不同格式(WARC/WAT/WET),以及如何从中提取和处理文本数据。文章还涵盖了数据去重、语言识别和过滤、以及使用语言模型进行质量控制等关键步骤,并比较了CCNet和RefinedWeb两种不同管道的设计思路和方法。

阅读更多
未分类 通用抓取