研究者たちは、大規模言語モデル(LLM)におけるコンテンツの安全性とプロンプトインジェクションの分類のための、新しい軽量な手法であるレイヤー拡張分類(LEC)を発表しました。LECは、LLMの最適な中間トランスフォーマー層の隠れ状態に対して、簡素化されたペナルティ付きロジスティック回帰(PLR)分類器を訓練します。PLRの効率性とLLMの高度な言語理解能力を組み合わせることで、LECはGPT-4oや特化されたモデルを凌駕する性能を示します。Qwen 2.5などの小型汎用モデルやDeBERTa v3などの他のトランスフォーマーベースアーキテクチャは、強力な特徴抽出器であることが証明され、100個未満の高品質な例で効果的に訓練できます。重要なことに、これらのモデルの中間トランスフォーマー層は、多くの場合、最終層よりも優れた性能を発揮します。単一の汎用LLMは、コンテンツの安全性を分類し、プロンプトインジェクションを検出し、出力を生成することができます。あるいは、これらの比較的サイズの小さなLLMを最適な中間層に剪定して、特徴抽出器として専用に使用することもできます。さまざまなアーキテクチャにおける一貫した結果は、堅牢な特徴抽出が多くのLLMに固有のものであることを示唆しています。
続きを読む