搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

训练有素的 Transformer 是隐式推理器:通向泛化边缘的机械之旅 (arxiv.org)

本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”,即长时间训练以克服过拟合,来学习隐式推理。然而,不同推理类型的泛化水平有所不同。分析表明,“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现,GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳,而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。

评论已经关闭!