从大型语言模型中提取训练数据：逆向工程知识压缩

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

从大型语言模型中提取训练数据：逆向工程知识压缩

2025-09-20

研究人员开发了一种技术，可以从大型语言模型（LLM）中提取结构化数据集，这相当于逆转了LLM将海量训练数据压缩到参数的过程。该方法通过分层主题探索，系统地遍历模型的知识空间，生成包含事实知识和推理模式的训练示例。该技术已成功应用于Qwen3-Coder、GPT-OSS和Llama 3等开源模型，生成了数万个结构化训练示例。这些数据集可用于模型分析、知识迁移、训练数据增强和模型调试等方面。这项研究为模型可解释性和跨模型知识迁移提供了新的方向。

(www.scalarlm.com)

惊声尖叫密码：Unicode字符的奇特应用

Claude Code：AI 辅助交互式定理证明的意外突破