English(EN) A Comparative analysis of Layer-wise Representational Capacity in AR and Diffusion LLMs

Diffusion LLM 展现出更大的表征冗余，可实现压缩

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

一篇新论文分析了自回归 (AR) 和扩散语言模型 (dLLM) 的内部表征。研究人员发现，扩散模型创建了更多具有早期层冗余的全局表征，而 AR 模型则具有紧密耦合的局部表征。dLLM 中的这种冗余可以节省大量计算成本，原生扩散模型在保持数学和编码任务 90% 以上性能的同时，可吸收高达 18.75% 的 FLOPs 削减。 AI

影响 Diffusion LLM 通过固有的表征冗余，展现出显著计算效率提升的潜力。

排序理由学术论文，分析不同 LLM 训练目标下的内部表征。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli · 2026-04-28 04:00

AR与Diffusion大语言模型层级表征能力之比较分析

arXiv:2603.07475v2 Announce Type: replace Abstract: Autoregressive (AR) language models build representations incrementally via left-to-right prediction, while diffusion language models (dLLMs) are trained through full-sequence denoising. Although recent dLLMs match AR performanc…

报道来源 [1]

AR与Diffusion大语言模型层级表征能力之比较分析

相关实体

相关话题