English(EN) Stabilizing Extrapolation in Looped Transformers via Learned Stochastic Stopping

通过学习到的随机停止稳定循环 Transformer

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一种方法来稳定循环 Transformer 中的外推，这是一种专为可变长度算法任务设计的神经网络架构。虽然这些模型可以很好地泛化到比它们训练时更长的序列，但它们的性能可能很脆弱且高度可变。新方法将随机性引入 Transformer 在训练期间执行的循环次数，这显著降低了分布外方差。此外，还分析了一种称为 RL-Halting 的学习随机调度，表明它可以改善二元加法和 Dyck-1 等任务的准确性-稳定性权衡。 AI

影响引入了一种新技术，以增强 Transformer 模型在算法任务中的可靠性和泛化能力。

排序理由该集群包含一篇详细介绍改进 Transformer 模型性能的新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Hsun-Yu Kuo, El Mahdi Chayti, Patrik Reizinger, Wieland Brendel, Martin Jaggi · 2026-06-30 04:00

Stabilizing Extrapolation in Looped Transformers via Learned Stochastic Stopping

arXiv:2606.29983v1 Announce Type: cross Abstract: Looped Transformers, which repeatedly apply a shared transformer block, are an architecturally natural fit for variable-length algorithmic tasks. Although they can exhibit strong length generalization beyond the length of training…

报道来源 [1]

Stabilizing Extrapolation in Looped Transformers via Learned Stochastic Stopping

相关实体

相关话题