Classificação de Segurança Leve Usando Modelos de Linguagem Podados

2024-12-19

Pesquisadores apresentam a Classificação Aprimorada por Camada (LEC), uma nova técnica leve para classificação de segurança de conteúdo e injeção de prompt em Modelos de Linguagem Grandes (LLMs). LEC treina um classificador de Regressão Logística Penalizada (PLR) otimizado no estado oculto da camada transformadora intermediária ideal de um LLM. Combinando a eficiência do PLR com a compreensão sofisticada da linguagem dos LLMs, o LEC supera o GPT-4o e modelos especializados. Modelos de uso geral pequenos, como o Qwen 2.5, e arquiteturas como DeBERTa v3, se mostram robustos extratores de recursos, treinando efetivamente com menos de 100 exemplos de alta qualidade. É crucial que as camadas transformadoras intermediárias geralmente superem a camada final. Um único LLM de uso geral pode classificar a segurança do conteúdo, detectar injeções de prompt e gerar saída, ou LLMs menores podem ser podados para sua camada intermediária ideal para extração de recursos. Resultados consistentes em diferentes arquiteturas sugerem que a extração robusta de recursos é inerente a muitos LLMs.