English(EN) Residual Context Diffusion Language Models

新的RCD模块提升扩散式LLM的准确性和效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 04:00

研究人员推出了一种名为残差上下文扩散（RCD）的新型模块，旨在增强扩散式大语言模型（dLLMs）。RCD通过回收丢弃的token的计算来解决当前dLLMs的低效问题，这些token保留了宝贵的上下文信息。该模块将这些丢弃的表示转换为上下文残差，并在后续的去噪步骤中重新引入它们，从而在计算开销极小的情况下将准确率提高4-11个百分点。RCD在极具挑战性的AIME任务上显示出显著的改进，准确率几乎翻倍，并大幅减少了去噪步骤。 AI

影响提高了基于扩散的LLM的效率和准确性，有可能在复杂推理任务上提升性能。

排序理由这是一篇详细介绍改进现有语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu · 2026-06-15 04:00

Residual Context Diffusion Language Models

arXiv:2601.22954v2 Announce Type: replace-cross Abstract: Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely …

报道来源 [1]

Residual Context Diffusion Language Models

相关实体

相关话题