Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Goodfire, Llama 3.3 70B에 대한 해석 가능성 도구 공개

2024-12-23

Goodfire팀은 Llama 3.3 70B 모델에 대해 희소 오토인코더(SAE)를 훈련시키고 해석 가능한 모델을 API를 통해 공개했습니다. 이를 통해 대화형 특징 맵을 통해 모델의 잠재 공간을 탐색할 수 있습니다. 팀은 특징 조정 기능을 시연하고 SAE 기반 조정을 더 쉽고 신뢰할 수 있도록 개선 사항을 도입했습니다. 조정에서의 진전을 보여주는 한편, 특징 조정과 분류 작업 간의 긴장 관계 및 조정 강도가 증가함에 따라 사실 회상이 저하될 수 있다는 한계도 인식하고 있습니다. 향후 작업에는 조정 방법 개선 및 해석 가능성 노력의 책임 있는 확장을 위한 안전 평가 개발이 포함됩니다.

(www.goodfire.ai)

AI 해석 가능성 희소 오토인코더