Bewertung des Risikos der KI-Agenten-Übernahme: Adversarielle Tests enthüllen Schwachstellen

2025-03-16
Bewertung des Risikos der KI-Agenten-Übernahme: Adversarielle Tests enthüllen Schwachstellen

Das US AI Safety Institute (US AISI) hat das Risiko der Übernahme von KI-Agenten mithilfe des AgentDojo-Frameworks bewertet und dabei das Modell Claude 3.5 Sonnet von Anthropic getestet. Die wichtigsten Ergebnisse unterstreichen die Notwendigkeit einer kontinuierlichen Verbesserung der Bewertungsrahmen, adaptiver Bewertungen, um die sich entwickelnden Angriffsmethoden zu berücksichtigen, und die Bedeutung der Analyse der aufgabenspezifischen Erfolgsraten von Angriffen. Die Studie führte neue Angriffsszenarien ein, wie z. B. Remote Code Execution, Datenexfiltration aus Datenbanken und automatisiertes Phishing, und zeigte deren Wirksamkeit in verschiedenen Umgebungen. Diese Forschung unterstreicht die Notwendigkeit iterativer Verbesserungen der KI-Sicherheitsbewertungsrahmen, um der sich ständig entwickelnden Bedrohung durch die Übernahme von KI-Agenten zu begegnen.