Goodfire发布Llama 3.3 70B模型可解释性工具

2024-12-23

Goodfire团队训练了Llama 3.3 70B模型的稀疏自编码器(SAE),并通过API公开了其可解释性模型。该模型允许用户探索Llama 3.3 70B模型的中间层特征空间,并通过交互式地图浏览这些特征。研究人员还演示了某些特征的引导效果,并引入了一系列新功能,使基于SAE的引导更容易使用和更可靠。虽然该模型在引导方面取得了进展,但研究人员也指出了其局限性,例如特征引导和分类任务之间的张力,以及模型对事实的回忆在引导强度增加时可能受损。未来,Goodfire团队将继续研究改进引导方法,并开发安全评估,以负责任地扩展其可解释性工作。