English(EN) LT2: Linear-Time Looped Transformers

新技术循环 Transformer 层以提升模型性能

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-22 17:31

研究人员开发了一种名为训练免费循环 Transformer 的新颖技术，该技术可以在不进行任何额外训练或架构修改的情况下增强现有冻结语言模型的性能。该方法在推理时应用一个轻量级包装器，将连续的层块循环起来，将其视为常微分方程近似的改进，而不是直接更新。该方法已在不同模型系列中展示了性能提升，包括在 Qwen3 和 Moonlight 等模型上，在 MMLU-Pro、CommonsenseQA 和 OpenBookQA 等基准测试上取得了显著的进步。 AI

影响在不重新训练的情况下增强现有语言模型，有可能提高各种任务的效率和性能。

排序理由该集群包含一篇详细介绍改进语言模型新方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.LG TIER_1 English(EN) · Chunyuan Deng, Yizhe Zhang, Rui-Jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, Hanjie Chen · 2026-05-26 04:00

LT2：线性时间循环 Transformer

arXiv:2605.20670v2 Announce Type: replace Abstract: Looped Transformers (LT) have emerged as a powerful architecture by iterating their layers multiple times before decoding the final token. However, pairing them with full attention retains quadratic complexity, making them compu…
arXiv stat.ML TIER_1 English(EN) · Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu · 2026-05-25 04:00

无训练循环Transformer

arXiv:2605.23872v1 Announce Type: cross Abstract: We introduce training-free looped transformers, in which a lightweight inference-time wrapper loops a contiguous mid-stack block of layers of a frozen checkpoint without additional fine-tuning, continued training, or architectural…
arXiv stat.ML TIER_1 English(EN) · Qiang Liu · 2026-05-22 17:31

无训练循环Transformer

We introduce training-free looped transformers, in which a lightweight inference-time wrapper loops a contiguous mid-stack block of layers of a frozen checkpoint without additional fine-tuning, continued training, or architectural changes. Unlike prior looped transformer methods …

报道来源 [3]

LT2：线性时间循环 Transformer

无训练循环Transformer

无训练循环Transformer

相关实体

相关话题