大型语言模型:世界模型还是表面统计?

2024-11-22

本文探讨了大型语言模型(LLM)究竟是学习了世界模型还是仅仅是表面统计数据。作者以训练一个只学习奥赛罗棋谱的GPT模型(Othello-GPT)为例,发现该模型不仅能生成合法的棋步,其内部表征还展现出与棋盘结构相似的几何形状。通过一种名为“探针”的技术,作者发现训练后的Othello-GPT的内部表征包含了棋盘状态信息。此外,通过干预模型的中间激活,作者可以控制模型的预测,这表明模型确实在利用其内部的世界模型进行预测。最后,作者提出了一种名为“基于干预的归因”的方法,用于解释模型的预测,并生成了“潜在显著性图”,展示了模型是如何根据棋盘状态进行预测的。

未分类