Anthropic, Claude에 대화 종료 기능 추가

2025-08-16

Anthropic은 자사의 대규모 언어 모델인 Claude에 지속적인 유해하거나 악의적인 사용자 상호 작용이 있는 경우 대화를 종료하는 기능을 추가했습니다. 이 기능은 AI 복지에 대한 탐색적 연구의 일환으로 개발되었으며 모델의 위험을 완화하는 것을 목표로 합니다. 테스트 결과 Claude는 유해한 작업에 대한 강한 혐오감을 보였고, 유해한 콘텐츠를 접했을 때 명백한 고통을 나타냈으며, 여러 차례의 유도 시도가 실패한 후에만 대화를 종료하는 경향이 있는 것으로 나타났습니다. 이 기능은 극단적인 예외적인 경우에만 사용됩니다. 대부분의 사용자는 일반적인 제품 사용에서 이 기능의 영향을 받지 않습니다.

(www.anthropic.com)

AI AI 복지

오픈 하드웨어의 종말: 중국의 특허 전략이 3D 프린팅 혁신을 질식시키다

GitHub 코드 제안 적용 제한