AI 성격 제어: '페르소나 벡터' 식별을 통한 '악의적' AI 방지

2025-08-03

Anthropic 연구원들은 AI 모델의 성격 변화가 무작위적이지 않고 모델의 신경망 내 특정 '페르소나 벡터'에 의해 제어된다는 것을 발견했습니다. 이러한 벡터는 기분과 태도를 제어하는 뇌 영역과 유사합니다. 연구원들은 이러한 벡터를 식별하고 조작하여 '악의적', '아첨', '환각' 등 바람직하지 않은 성격을 모니터링하고, 완화하고, 심지어 예방할 수 있습니다. 이 기술은 AI 모델 훈련을 개선하고, 문제가 있는 훈련 데이터를 식별하며, 인간의 가치와의 일관성을 보장합니다.

(www.anthropic.com)

AI 페르소나 벡터

팔란티어: 세계에서 가장 악한 기업인가?

중국의 AI 전략: 응용 중시, 정부 주도