训练有素的 Transformer 是隐式推理器：通向泛化边缘的机械之旅

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

训练有素的 Transformer 是隐式推理器：通向泛化边缘的机械之旅

2024-05-27

本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”，即长时间训练以克服过拟合，来学习隐式推理。然而，不同推理类型的泛化水平有所不同。分析表明，“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现，GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳，而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。

(arxiv.org)

未分类隐式推理泛化

埃及斥资10亿美元打造超级博物馆，能否将埃及学带回家？

Notepad Tab：一款简单、安全、私密的笔记工具