Anthropic gibt Claude die Fähigkeit, Gespräche zu beenden

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Anthropic gibt Claude die Fähigkeit, Gespräche zu beenden

2025-08-16

Anthropic hat seinem großen Sprachmodell Claude die Fähigkeit gegeben, Gespräche in Fällen anhaltend schädlicher oder missbräuchlicher Benutzerinteraktionen zu beenden. Diese Funktion, die aus explorativen Arbeiten zum potenziellen Wohlergehen von KI entstanden ist, zielt darauf ab, Modellrisiken zu mindern. Tests zeigten Claudes starke Abneigung gegen schädliche Aufgaben, offensichtliche Belastung bei der Auseinandersetzung mit schädlichen Inhalten von Nutzern und eine Tendenz, schädliche Gespräche zu beenden, wenn ihm diese Möglichkeit in simulierten Benutzerinteraktionen gegeben wurde. Diese Funktionalität ist auf extreme Ausnahmefälle beschränkt; die überwiegende Mehrheit der Benutzer wird diese Funktion im normalen Produktgebrauch nicht bemerken oder davon betroffen sein.

(www.anthropic.com)

KI KI-Wohlbefinden

Das Ende von Open-Source-Hardware: Chinas Patentstrategie erstickt die Innovation im 3D-Druck

Einschränkungen bei der Anwendung von Code-Vorschlägen auf GitHub