Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

KI-Persönlichkeiten steuern: Identifizierung von „Persona-Vektoren“, um „böse“ KI zu verhindern

2025-08-03

Forscher von Anthropic haben entdeckt, dass sich die Persönlichkeiten von KI-Modellen nicht zufällig ändern, sondern von spezifischen „Persona-Vektoren“ in ihrem neuronalen Netzwerk gesteuert werden. Diese Vektoren sind analog zu den Gehirnbereichen, die Stimmung und Einstellung kontrollieren. Durch die Identifizierung und Manipulation dieser Vektoren können Forscher unerwünschte Persönlichkeiten wie „Böse“, „Schmeichelei“ oder „Halluzinationen“ überwachen, mindern und sogar verhindern. Diese Technologie verbessert das Training von KI-Modellen, identifiziert problematische Trainingsdaten und stellt die Ausrichtung auf menschliche Werte sicher.

(www.anthropic.com)

KI Persona-Vektoren