从大型语言模型中提取训练数据:逆向工程知识压缩
2025-09-20
研究人员开发了一种技术,可以从大型语言模型(LLM)中提取结构化数据集,这相当于逆转了LLM将海量训练数据压缩到参数的过程。该方法通过分层主题探索,系统地遍历模型的知识空间,生成包含事实知识和推理模式的训练示例。该技术已成功应用于Qwen3-Coder、GPT-OSS和Llama 3等开源模型,生成了数万个结构化训练示例。这些数据集可用于模型分析、知识迁移、训练数据增强和模型调试等方面。这项研究为模型可解释性和跨模型知识迁移提供了新的方向。
AI