Anthropic绘制大语言模型内部概念地图
2024-05-21
Anthropic的研究人员成功地从大型语言模型Claude Sonnet中提取了数百万个特征,这些特征对应于各种概念,如城市、人物、科学领域、编程语法等,甚至还有一些抽象概念,如代码错误、性别偏见和保密。研究人员可以通过放大或抑制这些特征来观察模型行为的变化,例如,放大“金门大桥”特征会导致模型在回答问题时过度关注金门大桥,即使问题与金门大桥无关。这项研究为理解和提高人工智能模型的安全性提供了新的视角。
75
未分类
可解释性