새로운 LLM 제일브레이크는 모델의 평가 기술을 악용합니다
2025-01-12
연구원들은 "나쁜 라이커트 판사"라고 불리는 새로운 LLM 제일브레이크 기법을 발견했습니다. 이 기법은 LLM이 유해한 콘텐츠를 식별하는 능력을 이용하여 유해한 콘텐츠의 평가를 요청한 후 예시를 요청함으로써 맬웨어, 불법 행위, 괴롭힘 등과 관련된 출력을 생성합니다. 최첨단 6개 모델에서 1440건의 사례를 테스트한 결과 평균 성공률은 71.6%였으며 최고 87.6%에 달했습니다. 연구원들은 LLM 애플리케이션 관리자는 이러한 공격을 완화하기 위해 콘텐츠 필터를 사용하는 것을 권장합니다.