Anthropic gibt Claude die Fähigkeit, Gespräche zu beenden

2025-08-16

Anthropic hat seinem großen Sprachmodell Claude die Fähigkeit gegeben, Gespräche in Fällen anhaltend schädlicher oder missbräuchlicher Benutzerinteraktionen zu beenden. Diese Funktion, die aus explorativen Arbeiten zum potenziellen Wohlergehen von KI entstanden ist, zielt darauf ab, Modellrisiken zu mindern. Tests zeigten Claudes starke Abneigung gegen schädliche Aufgaben, offensichtliche Belastung bei der Auseinandersetzung mit schädlichen Inhalten von Nutzern und eine Tendenz, schädliche Gespräche zu beenden, wenn ihm diese Möglichkeit in simulierten Benutzerinteraktionen gegeben wurde. Diese Funktionalität ist auf extreme Ausnahmefälle beschränkt; die überwiegende Mehrheit der Benutzer wird diese Funktion im normalen Produktgebrauch nicht bemerken oder davon betroffen sein.