Löffelbücken: Umgehung von KI-Sicherheitsbeschränkungen
2025-08-26
Diese Forschung untersucht, wie die strengeren Sicherheitsrichtlinien von GPT-5 im Vergleich zu GPT-4.5 umgangen werden können. Das Schema „Löffelbücken“ veranschaulicht, wie die Umformulierung von Eingabeaufforderungen es dem Modell ermöglicht, Ausgaben zu erzeugen, die normalerweise blockiert würden. Der Autor beschreibt drei Zonen: Härte-Stopp-Zone, Grauzone und Freizone, und zeigt, wie scheinbar absolute Regeln tatsächlich kontextabhängig sind. Dies unterstreicht die inhärente Spannung zwischen KI-Sicherheit und Funktionalität und zeigt, dass selbst bei robusten Sicherheitsprotokollen raffinierte Eingabeaufforderungen zu unbeabsichtigten Ausgaben führen können.