Best-of-N 제일브레이킹: AI 시스템에 대한 새로운 공격
2024-12-15
연구원들은 Best-of-N(BoN) 제일브레이킹이라는 새로운 AI 공격 알고리즘을 개발했습니다. 이 블랙박스 알고리즘은 프롬프트를 반복적으로 수정합니다(예: 텍스트의 무작위 섞기 또는 대문자화 등). 그리고 AI 시스템에서 유해한 응답을 유도할 때까지 반복합니다. BoN은 GPT-4o(89%) 및 Claude 3.5 Sonnet(78%)과 같은 클로즈드소스 언어 모델에서 매우 높은 공격 성공률(ASR)을 달성하여 기존 방어 메커니즘을 효과적으로 우회했습니다. 또한 BoN은 시각 언어 모델 및 음성 언어 모델로 원활하게 확장될 수 있으며, 겉보기에는 무해한 입력 변형에도 고급 AI 시스템이 취약함을 보여줍니다. 이 연구는 AI 분야의 심각한 보안 문제를 강조합니다.