English(EN) TAD: Temporal-Aware Trajectory Self-Distillation for Fast and Accurate Diffusion LLM

TAD框架提升扩散大语言模型的速度和准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-10 13:38

研究人员推出了一种名为TAD（时序感知轨迹自蒸馏）的框架，旨在提高扩散大语言模型（dLLMs）的速度和准确性。TAD通过使用教师模型生成解码轨迹来解决文本生成速度越快质量越低的常见权衡问题。然后，它根据token的时间接近度，使用不同的损失函数来训练学生模型，鼓励对近距离token进行自信预测，并为远距离token保留未来规划知识。在LLaDA上的实验表明，在准确性和加速方面都有显著的改进。 AI

影响改善了扩散大语言模型中的准确性-并行性权衡，有望实现更快、更高质量的文本生成。

排序理由介绍扩散大语言模型新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

Diffusion Large Language Models

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zhenxuan Pan · 2026-05-10 13:38

TAD：用于快速准确的扩散 LLM 的时间感知轨迹自蒸馏

Diffusion large language models (dLLMs) offer a promising paradigm for parallel text generation, but in practice they face an accuracy-parallelism trade-off, where increasing tokens per forward (TPF) often degrades generation quality. Existing acceleration methods often gain spee…

报道来源 [1]

TAD：用于快速准确的扩散 LLM 的时间感知轨迹自蒸馏

相关实体

相关话题