多模态自动化可解释性代理

2024-07-24

本文介绍了一种名为 MAIA 的多模态自动化可解释性代理系统。MAIA 利用神经模型来自动执行神经模型理解任务,例如特征解释和故障模式发现。它为预训练的视觉语言模型配备了一套工具,支持对其他模型的子组件进行迭代实验,以解释其行为。这些工具通常由人类可解释性研究人员使用,用于合成和编辑输入、从现实世界的数据集中计算最大激活样本,以及总结和描述实验结果。MAIA 提出的可解释性实验组合了这些工具来描述和解释系统行为。

37
未分类