训练有素的 Transformer 是隐式推理器：通向泛化边缘的机械之旅

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

训练有素的 Transformer 是隐式推理器：通向泛化边缘的机械之旅

2024-05-27

本文研究了 Transformer 是否可以学习对参数知识进行隐式推理。研究发现 Transformer 可以通过“顿悟”，即长时间训练以克服过拟合，来学习隐式推理。然而，不同推理类型的泛化水平有所不同。分析表明，“顿悟”背后的机制与泛化电路的形成及其与记忆电路的相对效率有关。研究还发现，GPT-4-Turbo 和 Gemini-1.5-Pro 等基于非参数记忆的模型在复杂推理任务中表现不佳，而完全“顿悟”的 Transformer 可以实现近乎完美的准确性。

(arxiv.org)

未分类隐式推理泛化

Easy macOS Installation on Any Computer with Proxmox

3D + 2D: Testing out my cross-platform WASM graphics engine | Hacker News