Clasificación de Seguridad Ligera Usando Modelos de Lenguaje Podados
Los investigadores presentan la Clasificación Mejorada por Capas (LEC), una nueva técnica ligera para la clasificación de seguridad de contenido e inyección de indicaciones en Modelos de Lenguaje Grandes (LLMs). LEC entrena un clasificador de Regresión Logística Penalizada (PLR) optimizado en el estado oculto de la capa transformadora intermedia óptima de un LLM. Al combinar la eficiencia de PLR con la sofisticada comprensión del lenguaje de los LLMs, LEC supera a GPT-4o y modelos especializados. Los modelos de propósito general pequeños, como Qwen 2.5, y arquitecturas como DeBERTa v3, demuestran ser robustos extractores de características, entrenando eficazmente con menos de 100 ejemplos de alta calidad. Es crucial que las capas transformadoras intermedias suelen superar a la capa final. Un único LLM de propósito general puede clasificar la seguridad del contenido, detectar inyecciones de indicaciones y generar salida, o los LLMs más pequeños pueden podarse a su capa intermedia óptima para la extracción de características. Los resultados consistentes en diferentes arquitecturas sugieren que la extracción robusta de características es inherente a muchos LLMs.