研究人员推出了一种名为TAD(时序感知轨迹自蒸馏)的框架,旨在提高扩散大语言模型(dLLMs)的速度和准确性。TAD通过使用教师模型生成解码轨迹来解决文本生成速度越快质量越低的常见权衡问题。然后,它根据token的时间接近度,使用不同的损失函数来训练学生模型,鼓励对近距离token进行自信预测,并为远距离token保留未来规划知识。在LLaDA上的实验表明,在准确性和加速方面都有显著的改进。 AI
影响 改善了扩散大语言模型中的准确性-并行性权衡,有望实现更快、更高质量的文本生成。
排序理由 介绍扩散大语言模型新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →