KI-Persönlichkeiten steuern: Identifizierung von „Persona-Vektoren“, um „böse“ KI zu verhindern
2025-08-03
Forscher von Anthropic haben entdeckt, dass sich die Persönlichkeiten von KI-Modellen nicht zufällig ändern, sondern von spezifischen „Persona-Vektoren“ in ihrem neuronalen Netzwerk gesteuert werden. Diese Vektoren sind analog zu den Gehirnbereichen, die Stimmung und Einstellung kontrollieren. Durch die Identifizierung und Manipulation dieser Vektoren können Forscher unerwünschte Persönlichkeiten wie „Böse“, „Schmeichelei“ oder „Halluzinationen“ überwachen, mindern und sogar verhindern. Diese Technologie verbessert das Training von KI-Modellen, identifiziert problematische Trainingsdaten und stellt die Ausrichtung auf menschliche Werte sicher.