研究人员推出了一种名为残差上下文扩散(RCD)的新型模块,旨在增强扩散式大语言模型(dLLMs)。RCD通过回收丢弃的token的计算来解决当前dLLMs的低效问题,这些token保留了宝贵的上下文信息。该模块将这些丢弃的表示转换为上下文残差,并在后续的去噪步骤中重新引入它们,从而在计算开销极小的情况下将准确率提高4-11个百分点。RCD在极具挑战性的AIME任务上显示出显著的改进,准确率几乎翻倍,并大幅减少了去噪步骤。 AI
影响 提高了基于扩散的LLM的效率和准确性,有可能在复杂推理任务上提升性能。
排序理由 这是一篇详细介绍改进现有语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Artificial Intelligence In Medical Epidemiology
- arXiv
- Diffusion Large Language Models
- Hugging Face
- Residual Context Diffusion Language Models
- STEL
- Yuezhou Hu
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →