Goodfire、Llama 3.3 70B向け解釈可能性ツールを発表
2024-12-23
Goodfireチームは、Llama 3.3 70Bモデルに対してスパースオートエンコーダ(SAE)をトレーニングし、解釈可能なモデルをAPI経由で公開しました。これにより、インタラクティブな特徴マップを通してモデルの潜在空間を探求できます。チームは特徴のステアリング機能を実証し、SAEベースのステアリングをより容易かつ信頼性の高いものにするための改善点を導入しています。ステアリングにおける進歩を示す一方で、特徴ステアリングと分類タスク間の緊張関係や、ステアリング強度の上昇に伴う事実の想起の低下といった限界も認識されています。今後の取り組みとしては、ステアリング方法の改良と、解釈可能性の取り組みの責任ある拡大のための安全評価の開発が含まれます。