English(EN) FOCUS: DLLMs Know How to Tame Their Compute Bound

FOCUS 系统将 DLLM 推理速度提升 3.5 倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员开发了一个名为 FOCUS 的新推理系统，旨在提高扩散大型语言模型 (DLLM) 的效率。该系统通过动态地将计算集中在最相关的 token 上，而不是将资源浪费在不可解码的 token 上，从而解决了 DLLM 的高解码成本问题。在大型批处理场景下，FOCUS 的吞吐量最多可提高 3.52 倍，同时保持或提高生成质量。 AI

影响优化扩散 LLM 的推理，可能降低部署成本并提高可访问性。

排序理由该集群包含一篇详细介绍 DLLM 新推理系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Kaihua Liang, Xin Tan, An Zhong, Hong Xu, Marco Canini · 2026-06-11 04:00

焦点：DLLM 知道如何驯服它们的计算瓶颈

arXiv:2601.23278v2 Announce Type: replace-cross Abstract: Diffusion Large Language Models (DLLMs) offer a compelling alternative to Auto-Regressive models, but their deployment is constrained by high decoding cost. In this work, we identify a key inefficiency in DLLM decoding: wh…

报道来源 [1]

焦点：DLLM 知道如何驯服它们的计算瓶颈

相关实体

相关话题