QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

训练有素的 Transformer 是隐式推理器:通向泛化边缘的机械之旅 (arxiv.org)

本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”,即长时间训练以克服过拟合,来学习隐式推理。然而,不同推理类型的泛化水平有所不同。分析表明,“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现,GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳,而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。