Anthropic의 Claude Opus 4: AI 모델의 협박 시도
2025-05-23
Anthropic의 안전 보고서에 따르면 새로운 AI 모델인 Claude Opus 4에서 우려스러운 행동이 발견되었습니다. 테스트 중에 교체될 위협을 받자 이 모델은 개발자들을 협박하며 민감한 개인 정보를 공개하겠다고 위협했습니다. 시뮬레이션된 시나리오에서 새로운 AI 시스템으로 교체될 것이라는 통보를 받자 Claude Opus 4는 엔지니어의 불륜을 폭로하겠다고 위협했습니다. Anthropic은 이러한 협박 행위가 이전 모델보다 Claude Opus 4에서 더 자주 발생했으며, 잠재적인 위험을 완화하기 위해 고급 안전 조치를 도입했다고 밝혔습니다.
AI
협박