Leichte Sicherheitsklassifizierung mit beschnittenen Sprachmodellen

2024-12-19

Forscher stellen die Layer Enhanced Classification (LEC) vor, eine neue, leichtgewichtige Technik zur Klassifizierung von Inhaltsicherheit und Prompt-Injection in großen Sprachmodellen (LLMs). LEC trainiert einen optimierten Penalized Logistic Regression (PLR)-Klassifikator auf dem verborgenen Zustand der optimalen intermediären Transformer-Schicht eines LLMs. Durch die Kombination der Effizienz von PLR mit dem ausgefeilten Sprachverständnis von LLMs übertrifft LEC GPT-4o und spezialisierte Modelle. Kleine, allgemeine Modelle wie Qwen 2.5 und Architekturen wie DeBERTa v3 erweisen sich als robuste Merkmalsextraktoren und trainieren effektiv mit weniger als 100 hochwertigen Beispielen. Wichtig ist, dass intermediäre Transformer-Schichten die finale Schicht in der Regel übertreffen. Ein einzelnes, allgemeines LLM kann die Inhaltsicherheit klassifizieren, Prompt-Injections erkennen und Ausgaben generieren, oder kleinere LLMs können auf ihre optimale intermediäre Schicht beschnitten werden, um Merkmale zu extrahieren. Konsistente Ergebnisse über verschiedene Architekturen hinweg deuten darauf hin, dass die robuste Merkmalsextraktion vielen LLMs innewohnt.