주요 LLM 모두의 보안장치를 우회하는 범용 프롬프트 인젝션

2025-04-25

HiddenLayer 연구원들은 OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen, Mistral 등 주요 최첨단 AI 모델 모두에서 명령어 계층 구조와 안전 장치를 성공적으로 우회하는 새로운 프롬프트 인젝션 기술인 "Policy Puppetry"를 개발했습니다. 내부적으로 개발된 정책 기술과 역할극을 결합한 이 기술은 CBRN(화학, 생물학, 방사능, 핵) 위협, 대량 폭력, 자해, 시스템 프롬프트 유출 등 AI 안전 정책을 위반하는 출력을 생성합니다. 모델 아키텍처와 추론 전략에 관계없이 전송 가능한 이 기술은 모델 정렬에 RLHF만 의존하는 고유한 결함을 보여주며, 특히 민감한 환경에서 LLM을 배포하는 조직에 있어 적극적인 보안 테스트의 필요성을 강조합니다.

(hiddenlayer.com)

AI 프롬프트 인젝션

아이오와시티의 문학적 언더그라운드: MFA 열풍 너머

Slate Truck: 현황에 도전하는 미니멀리스트 EV 픽업트럭