경량 안전 분류: 가지치기된 언어 모델을 사용한 기법

2024-12-19

연구원들은 대규모 언어 모델(LLM)에서 콘텐츠 안전성과 프롬프트 주입 분류를 위한 새로운 경량 기법인 계층 향상 분류(LEC)를 발표했습니다. LEC는 LLM의 최적 중간 트랜스포머 계층의 은닉 상태에 대해 간소화된 페널티 부과 로지스틱 회귀(PLR) 분류기를 훈련합니다. PLR의 효율성과 LLM의 고급 언어 이해 능력을 결합하여 LEC는 GPT-4o 및 특수 모델을 능가하는 성능을 보여줍니다. Qwen 2.5와 같은 소형 범용 모델과 DeBERTa v3와 같은 다른 트랜스포머 기반 아키텍처는 강력한 특징 추출기임이 입증되었으며, 100개 미만의 고품질 예시로 효과적으로 훈련할 수 있습니다. 중요한 점은 이러한 모델의 중간 트랜스포머 계층이 대부분 최종 계층보다 우수한 성능을 발휘한다는 것입니다. 단일 범용 LLM은 콘텐츠 안전성을 분류하고, 프롬프트 주입을 감지하고, 출력을 생성할 수 있습니다. 또는 이러한 비교적 크기가 작은 LLM을 최적의 중간 계층으로 가지치기하여 특징 추출기로 전용 사용할 수도 있습니다. 다양한 아키텍처에서 일관된 결과는 강력한 특징 추출이 많은 LLM에 고유한 특성임을 시사합니다.