PulseAugur
实时 08:22:46
English(EN) Stabilizing Extrapolation in Looped Transformers via Learned Stochastic Stopping

通过学习到的随机停止稳定循环 Transformer

研究人员开发了一种方法来稳定循环 Transformer 中的外推,这是一种专为可变长度算法任务设计的神经网络架构。虽然这些模型可以很好地泛化到比它们训练时更长的序列,但它们的性能可能很脆弱且高度可变。新方法将随机性引入 Transformer 在训练期间执行的循环次数,这显著降低了分布外方差。此外,还分析了一种称为 RL-Halting 的学习随机调度,表明它可以改善二元加法和 Dyck-1 等任务的准确性-稳定性权衡。 AI

影响 引入了一种新技术,以增强 Transformer 模型在算法任务中的可靠性和泛化能力。

排序理由 该集群包含一篇详细介绍改进 Transformer 模型性能的新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

通过学习到的随机停止稳定循环 Transformer

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Hsun-Yu Kuo, El Mahdi Chayti, Patrik Reizinger, Wieland Brendel, Martin Jaggi ·

    Stabilizing Extrapolation in Looped Transformers via Learned Stochastic Stopping

    arXiv:2606.29983v1 Announce Type: cross Abstract: Looped Transformers, which repeatedly apply a shared transformer block, are an architecturally natural fit for variable-length algorithmic tasks. Although they can exhibit strong length generalization beyond the length of training…