大型语言模型:理解世界还是操纵符号?

2025-06-04
大型语言模型:理解世界还是操纵符号?

本文探讨了大型语言模型(LLM)的局限性。作者认为,尽管LLM在语言任务中表现出色,但这并不代表它们真正理解世界。LLM更擅长通过预测下一个token来学习一系列启发式算法,而非构建完整的世界模型。 真正的AGI需要对物理世界有深刻的理解,而目前的LLM缺乏这种能力。作者批判了将多种模态简单堆叠以构建AGI的策略,并建议未来的研究应更关注具身认知和环境交互。

阅读更多

大型语言模型:世界模型还是表面统计?

2024-11-22
大型语言模型:世界模型还是表面统计?

本文探讨了大型语言模型(LLM)究竟是学习了世界模型还是仅仅是表面统计数据。作者以训练一个只学习奥赛罗棋谱的GPT模型(Othello-GPT)为例,发现该模型不仅能生成合法的棋步,其内部表征还展现出与棋盘结构相似的几何形状。通过一种名为“探针”的技术,作者发现训练后的Othello-GPT的内部表征包含了棋盘状态信息。此外,通过干预模型的中间激活,作者可以控制模型的预测,这表明模型确实在利用其内部的世界模型进行预测。最后,作者提出了一种名为“基于干预的归因”的方法,用于解释模型的预测,并生成了“潜在显著性图”,展示了模型是如何根据棋盘状态进行预测的。

阅读更多
未分类

Financial Market Applications of LLMs

2024-04-20
Financial Market Applications of LLMs

该网站探讨了大型语言模型 (LLM) 在金融市场中的应用方式,着重于预测分析、自然语言处理和金融建模。本文提供了 LLM 在金融领域实际应用的案例,并讨论了潜在的挑战和未来发展方向。

阅读更多
未分类