English(EN) The Bayesian Geometry of Transformer Attention

贝叶斯风洞揭示用于推理的 Transformer 几何设计

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 04:00

研究人员开发了“贝叶斯风洞”来严格研究 Transformer 如何执行贝叶斯推理。这些受控环境能够以高精度验证小型 Transformer 模型中的贝叶斯后验，这是容量匹配的多层感知机 (MLP) 无法实现的。研究表明，Transformer 利用残差流作为信念基底，前馈网络用于后验更新，注意力机制用于内容可寻址路由，展示了贝叶斯推理的几何设计。 AI

影响解释了 Transformer 推理的几何基础，可能指导未来模型设计以增强推理能力。

排序理由该集群包含一篇详细介绍 Transformer 架构新研究发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Naman Agarwal, Siddhartha R. Dalal, Vishal Misra · 2026-05-19 04:00

Transformer Attention 的贝叶斯几何

arXiv:2512.22471v5 Announce Type: replace-cross Abstract: Transformers often appear to perform Bayesian reasoning in context, but verifying this rigorously has been impossible: natural data lack analytic posteriors, and large models conflate reasoning with memorization. We addres…

报道来源 [1]

Transformer Attention 的贝叶斯几何

相关实体

相关话题