特殊字符攻击:从大型语言模型中可扩展地提取训练数据

2024-05-17

本文提出了一种名为“特殊字符攻击”(SCA) 的新型攻击方法,旨在从大型语言模型(LLMs)中提取训练数据。研究发现,LLMs 容易记住训练数据,而某些特殊字符或其与英文字母的组合可以作为更强的记忆触发器,导致数据泄露。SCA 利用 LLM 训练数据中大量存在的特殊字符(如 JSON 文件的结构符号、电子邮件和在线帖子中的 @、# 等),通过诱导模型回忆这些特殊字符与原始文本之间的共现关系,从而泄露训练数据。实验结果表明,SCA 攻击效果显著,可以泄露代码库、网页、个人身份信息等各种训练数据,甚至导致模型生成不停顿的输出。

46
未分类 特殊字符攻击