AI 에이전트 해킹 위험 평가: 적대적 테스트가 취약성을 드러내다

2025-03-16

미국 AI 안전 연구소(US AISI)는 AgentDojo 프레임워크를 사용하여 Anthropic의 Claude 3.5 Sonnet 모델에 대한 AI 에이전트 해킹 위험을 평가했습니다. 주요 결과는 평가 프레임워크의 지속적인 개선, 진화하는 공격 방법에 대한 적응형 평가, 작업별 공격 성공률 분석의 중요성을 강조합니다. 본 연구에서는 원격 코드 실행, 데이터베이스 데이터 유출, 자동화된 피싱과 같은 새로운 공격 시나리오를 도입하여 다양한 환경에서의 효과를 보여주었습니다. 이 연구는 끊임없이 진화하는 AI 에이전트 해킹 위협에 대처하기 위해 AI 보안 평가 프레임워크를 반복적으로 개선해야 함을 강조합니다.

(www.nist.gov)

AI 에이전트 해킹

Agentic: 확장 가능한 에이전트 플랫폼 및 구조화된 출력

파이어플라이의 블루고스트, 달에서 일식 포착