Classification de sécurité légère utilisant des modèles de langage élagués
Des chercheurs présentent la Classification Améliorée par Couches (LEC), une nouvelle technique légère pour la classification de la sécurité du contenu et de l'injection d'invite dans les grands modèles de langage (LLM). LEC entraîne un classificateur de régression logistique pénalisée (PLR) optimisé sur l'état caché de la couche de transformateur intermédiaire optimale d'un LLM. En combinant l'efficacité du PLR avec la compréhension sophistiquée du langage des LLM, LEC surpasse GPT-4o et les modèles spécialisés. Les petits modèles polyvalents comme Qwen 2.5 et les architectures comme DeBERTa v3 s'avèrent être de robustes extracteurs de caractéristiques, s'entraînant efficacement avec moins de 100 exemples de haute qualité. Il est crucial que les couches de transformateur intermédiaires surpassent généralement la couche finale. Un seul LLM polyvalent peut classer la sécurité du contenu, détecter les injections d'invite et générer une sortie, ou les LLM plus petits peuvent être élagués à leur couche intermédiaire optimale pour l'extraction de caractéristiques. Des résultats cohérents sur différentes architectures suggèrent que l'extraction robuste de caractéristiques est inhérente à de nombreux LLM.