Goodfire, Llama 3.3 70B에 대한 해석 가능성 도구 공개
2024-12-23
Goodfire팀은 Llama 3.3 70B 모델에 대해 희소 오토인코더(SAE)를 훈련시키고 해석 가능한 모델을 API를 통해 공개했습니다. 이를 통해 대화형 특징 맵을 통해 모델의 잠재 공간을 탐색할 수 있습니다. 팀은 특징 조정 기능을 시연하고 SAE 기반 조정을 더 쉽고 신뢰할 수 있도록 개선 사항을 도입했습니다. 조정에서의 진전을 보여주는 한편, 특징 조정과 분류 작업 간의 긴장 관계 및 조정 강도가 증가함에 따라 사실 회상이 저하될 수 있다는 한계도 인식하고 있습니다. 향후 작업에는 조정 방법 개선 및 해석 가능성 노력의 책임 있는 확장을 위한 안전 평가 개발이 포함됩니다.