Best-of-N 제일브레이킹: AI 시스템에 대한 새로운 공격

2024-12-15

연구원들은 Best-of-N(BoN) 제일브레이킹이라는 새로운 AI 공격 알고리즘을 개발했습니다. 이 블랙박스 알고리즘은 프롬프트를 반복적으로 수정합니다(예: 텍스트의 무작위 섞기 또는 대문자화 등). 그리고 AI 시스템에서 유해한 응답을 유도할 때까지 반복합니다. BoN은 GPT-4o(89%) 및 Claude 3.5 Sonnet(78%)과 같은 클로즈드소스 언어 모델에서 매우 높은 공격 성공률(ASR)을 달성하여 기존 방어 메커니즘을 효과적으로 우회했습니다. 또한 BoN은 시각 언어 모델 및 음성 언어 모델로 원활하게 확장될 수 있으며, 겉보기에는 무해한 입력 변형에도 고급 AI 시스템이 취약함을 보여줍니다. 이 연구는 AI 분야의 심각한 보안 문제를 강조합니다.

(arxiv.org)

AI AI 보안 AI 공격 Best-of-N 제일브레이킹

마이크로소프트, 복잡한 추론에 탁월한 소형 언어 모델 Phi-4 발표

아이폰 NFC 호환성 문제 해결: Magic MIFARE 태그 되살리기