인디아나 존스 공격, 기존 LLM의 취약점을 보여줘

2025-02-24

연구원들은 '인디아나 존스'라고 명명된 새로운 탈옥 기법을 고안하여 대규모 언어 모델(LLM)의 보안 필터를 성공적으로 우회했습니다. 이 기법은 세 개의 LLM을 조정하여 역사적 악당이 되는 방법과 같이 원래 필터링되어야 할 유해한 정보를 반복적으로 추출합니다. 연구원들은 이 발견이 향상된 필터링, 기계적 망각 기술 및 기타 보안 개선을 통해 더 안전한 LLM 개발로 이어질 것으로 기대합니다.

(techxplore.com)

블로거 회고: 심층 학습 게시물의 가치

기적! 정렬 함수 버그 발견!