研究人员开发了一个名为 FOCUS 的新推理系统,旨在提高扩散大型语言模型 (DLLM) 的效率。该系统通过动态地将计算集中在最相关的 token 上,而不是将资源浪费在不可解码的 token 上,从而解决了 DLLM 的高解码成本问题。在大型批处理场景下,FOCUS 的吞吐量最多可提高 3.52 倍,同时保持或提高生成质量。 AI
影响 优化扩散 LLM 的推理,可能降低部署成本并提高可访问性。
排序理由 该集群包含一篇详细介绍 DLLM 新推理系统的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →