Echo-Kammer-Angriff: Ein neuer Jailbreak für LLMs
Ein KI-Forscher von Neural Trust hat eine neue Jailbreak-Technik entdeckt, den „Echo-Kammer-Angriff“, der die Sicherheitsmechanismen führender Large Language Models (LLMs) umgeht. Diese Methode nutzt Kontextvergiftung und mehrstufiges Reasoning, um Modelle subtil zur Generierung schädlicher Inhalte zu führen, ohne explizit gefährliche Eingabeaufforderungen zu verwenden. Durch das Einpflanzen scheinbar harmloser Eingabeaufforderungen, die sich über mehrere Runden aufbauen, formt der Angriff schrittweise den internen Zustand des Modells, was zu Richtlinien verletzenden Antworten führt. Bewertungen zeigten Erfolgsraten von über 90 % bei mehreren Modellen und heben eine kritische Schwachstelle in der aktuellen LLM-Sicherheit hervor.