基于稀疏自编码器的 Llama 3 可解释性

2024-11-22

该项目利用稀疏自编码器 (SAE) 实现了 Llama 3 的可解释性,提供了一个完整的端到端流程,包括数据捕获、SAE 训练、特征解释和验证。项目使用纯 PyTorch 编写,具有最小的依赖性,并针对 Llama 3.2-3B 模型进行了测试。该项目捕获残差激活作为训练数据,并使用定制的 OpenWebText 数据集变体。SAE 训练过程中使用了辅助损失和梯度投影等技术来防止和恢复失效的潜在特征,并通过 Weights & Biases 进行日志记录和可视化。此外,项目还提供了特征提取和语义分析工具,并通过文本和聊天补全任务验证 SAE 对模型行为的影响。