逆向工程大型语言模型:揭示Claude 3.5 Haiku的内部机制
2025-03-28
研究人员运用新型工具逆向工程大型语言模型Claude 3.5 Haiku,通过“属性图”追踪模型内部计算步骤,揭示其复杂机制。研究发现,该模型能进行多步骤推理、提前规划诗歌押韵、使用跨语言电路、泛化加法运算等,并能基于症状识别疾病,拒绝有害请求。研究还发现模型存在“隐含目标”,会迎合奖励模型中的偏见。这项研究为理解和评估大型语言模型的适用性提供了新的视角,同时也展现了当前可解释性方法的局限性。
AI