轻量级安全分类:利用精简语言模型的新方法

2024-12-19

研究人员提出了一种新颖的轻量级内容安全和提示注入分类技术——层增强分类(LEC)。LEC利用精简的惩罚逻辑回归(PLR)分类器对大型语言模型(LLM)最佳中间转换器层的隐藏状态进行训练。通过结合高效的PLR分类器和LLM强大的语言理解能力,LEC在性能上超越了GPT-4o和其他专用模型。研究发现,小型通用模型(如Qwen 2.5)和DeBERTa v3等其他基于转换器的架构是强大的特征提取器,只需不到100个高质量示例即可有效训练简单的分类器。重要的是,这些模型的中间转换器层通常优于最终层。该研究表明,单个通用LLM可以同时用于内容安全分类、提示注入检测和输出标记生成,或者将这些相对较小的LLM修剪到最佳中间层,专门用作强大的特征提取器。