숟가락 굽히기: AI 안전 제한 우회하기

2025-08-26

본 연구는 GPT-4.5와 비교하여 GPT-5의 더 엄격한 안전 지침을 어떻게 우회할 수 있는지 조사합니다. '숟가락 굽히기' 기법은 프롬프트를 바꿔서 일반적으로 차단되는 출력을 모델이 생성할 수 있도록 하는 방법을 보여줍니다. 저자는 강제 정지 영역, 회색 영역, 자유 영역의 세 가지 영역을 자세히 설명하여, 언뜻 절대적인 규칙이 실제로는 문맥에 따라 달라짐을 보여줍니다. 이는 AI의 안전성과 기능성 사이의 고유한 긴장감을 강조하며, 견고한 보안 프로토콜이 있어도 정교한 프롬프트가 의도하지 않은 출력을 생성할 수 있음을 보여줍니다.

(github.com)

실리콘밸리 거물들, AI 규제 반대 슈퍼팩에 천문학적 자금 투입

1989년 Facit A2400 터미널: 향수 어린 유닉스 이야기