Anthropic의 헌법 분류기: AI 탈옥에 대한 새로운 방어
2025-02-03

Anthropic의 안전 연구팀은 AI 탈옥에 대한 새로운 방어책으로 헌법 분류기를 발표했습니다. 합성 데이터로 훈련된 이 시스템은 유해한 출력을 효과적으로 필터링하면서 오탐을 최소화합니다. 프로토타입은 수천 시간의 인간 레드 팀 테스트를 견뎌내며 탈옥 성공률을 크게 줄였지만, 초기에는 높은 거부율과 계산 오버헤드에 시달렸습니다. 업데이트된 버전은 거부율의 약간 증가와 적당한 계산 비용만으로 강력함을 유지합니다. 기간 한정 라이브 데모에서는 보안 전문가를 초대하여 내구성을 테스트하고 점점 더 강력해지는 AI 모델의 더욱 안전한 배포를 위한 길을 열 것입니다.