PulseAugur
实时 12:48:29
English(EN) Residual Context Diffusion Language Models

新的RCD模块提升扩散式LLM的准确性和效率

研究人员推出了一种名为残差上下文扩散(RCD)的新型模块,旨在增强扩散式大语言模型(dLLMs)。RCD通过回收丢弃的token的计算来解决当前dLLMs的低效问题,这些token保留了宝贵的上下文信息。该模块将这些丢弃的表示转换为上下文残差,并在后续的去噪步骤中重新引入它们,从而在计算开销极小的情况下将准确率提高4-11个百分点。RCD在极具挑战性的AIME任务上显示出显著的改进,准确率几乎翻倍,并大幅减少了去噪步骤。 AI

影响 提高了基于扩散的LLM的效率和准确性,有可能在复杂推理任务上提升性能。

排序理由 这是一篇详细介绍改进现有语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu ·

    Residual Context Diffusion Language Models

    arXiv:2601.22954v2 Announce Type: replace-cross Abstract: Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely …