에코 체임버 공격: LLM에 대한 새로운 제일브레이크

2025-06-27
에코 체임버 공격: LLM에 대한 새로운 제일브레이크

Neural Trust의 AI 연구원이 주요 대규모 언어 모델(LLM)의 보안 메커니즘을 우회하는 새로운 제일브레이크 기법인 '에코 체임버 공격'을 발견했습니다. 이 기법은 명시적으로 위험한 프롬프트 없이 모델을 유해한 콘텐츠 생성으로 미묘하게 유도하기 위해 컨텍스트 포이즈닝과 멀티턴 추론을 사용합니다. 겉보기에는 무해한 프롬프트를 여러 턴에 걸쳐 누적함으로써 공격은 모델의 내부 상태를 점진적으로 변화시켜 정책 위반 응답을 생성합니다. 평가 결과 여러 모델에서 90%를 넘는 성공률을 보였으며, 현재 LLM 보안의 심각한 취약성을 드러냅니다.

AI