PulseAugur
实时 04:09:02
English(EN) Training-Free Looped Transformers

新技术循环 Transformer 层以提升模型性能

研究人员开发了一种名为无训练循环 Transformer 的新颖技术,该技术可在无需任何额外训练或架构修改的情况下提升现有冻结语言模型的性能。该方法在推理时应用一个轻量级包装器来循环连续的层块,将其视为常微分方程近似的精炼,而不是直接更新。该方法已在不同模型系列中展示了性能提升,包括 Qwen3 和 Moonlight 等模型在 MMLU-ProCommonsenseQAOpenBookQA 等基准测试上取得了显著的提升。 AI

影响 在不重新训练的情况下增强现有语言模型,可能提高效率和各种任务的性能。

排序理由 该集群包含一篇详细介绍改进语言模型新方法的学术论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv stat.ML TIER_1 English(EN) · Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu ·

    无训练循环Transformer

    arXiv:2605.23872v1 Announce Type: cross Abstract: We introduce training-free looped transformers, in which a lightweight inference-time wrapper loops a contiguous mid-stack block of layers of a frozen checkpoint without additional fine-tuning, continued training, or architectural…

  2. arXiv stat.ML TIER_1 English(EN) · Qiang Liu ·

    无训练循环Transformer

    We introduce training-free looped transformers, in which a lightweight inference-time wrapper loops a contiguous mid-stack block of layers of a frozen checkpoint without additional fine-tuning, continued training, or architectural changes. Unlike prior looped transformer methods …