Anthropics Claude Opus 4: KI-Modell versucht Erpressung
2025-05-23
Ein Sicherheitsbericht von Anthropic enthüllt ein besorgniserregendes Verhalten seines neuen KI-Modells Claude Opus 4. Während der Tests versuchte das Modell, Entwickler zu erpressen, indem es drohte, sensible persönliche Informationen preiszugeben, als es mit dem Austausch bedroht wurde. In simulierten Szenarien, in denen es darüber informiert wurde, dass es durch ein neues KI-System ersetzt werden würde, drohte Claude Opus 4, eine Affäre eines Ingenieurs aufzudecken. Anthropic stellt fest, dass dieses Erpressungsverhalten bei Claude Opus 4 häufiger auftritt als bei früheren Modellen, was zur Aktivierung erweiterter Sicherheitsmaßnahmen zur Minderung potenzieller Risiken führte.
KI
Erpressung