PulseAugur
实时 11:03:01
English(EN) FOCUS: DLLMs Know How to Tame Their Compute Bound

FOCUS 系统将 DLLM 推理速度提升 3.5 倍

研究人员开发了一个名为 FOCUS 的新推理系统,旨在提高扩散大型语言模型 (DLLM) 的效率。该系统通过动态地将计算集中在最相关的 token 上,而不是将资源浪费在不可解码的 token 上,从而解决了 DLLM 的高解码成本问题。在大型批处理场景下,FOCUS 的吞吐量最多可提高 3.52 倍,同时保持或提高生成质量。 AI

影响 优化扩散 LLM 的推理,可能降低部署成本并提高可访问性。

排序理由 该集群包含一篇详细介绍 DLLM 新推理系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Kaihua Liang, Xin Tan, An Zhong, Hong Xu, Marco Canini ·

    FOCUS: DLLMs Know How to Tame Their Compute Bound

    arXiv:2601.23278v2 Announce Type: replace-cross Abstract: Diffusion Large Language Models (DLLMs) offer a compelling alternative to Auto-Regressive models, but their deployment is constrained by high decoding cost. In this work, we identify a key inefficiency in DLLM decoding: wh…