Anthropic绘制大语言模型内部概念地图

Anthropic绘制大语言模型内部概念地图 (www.anthropic.com)

原文: Mapping the Mind of a Large Language Model \ Anthropic

Anthropic的研究人员成功地从大型语言模型Claude Sonnet中提取了数百万个特征，这些特征对应于各种概念，如城市、人物、科学领域、编程语法等，甚至还有一些抽象概念，如代码错误、性别偏见和保密。研究人员可以通过放大或抑制这些特征来观察模型行为的变化，例如，放大“金门大桥”特征会导致模型在回答问题时过度关注金门大桥，即使问题与金门大桥无关。这项研究为理解和提高人工智能模型的安全性提供了新的视角。

可解释性

上一篇: CADmium：专为浏览器打造的本地优先CAD程序

下一篇: 美国环保署将加强执法力度，应对水务部门的“关键”漏洞

评论已经关闭！

返回首页