English(EN) Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference

新的MoE推理方法将通信成本降低了31%

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一个名为任务感知协同激活分组（TACG）的新框架，以提高推理过程中混合专家（MoE）模型的效率。TACG通过根据任务特定的协同激活模式对专家进行分组来解决通信瓶颈，而不是使用通用平均值。这种方法结合了用于通用专家的通用专家共享复制（GESR），在保持高公平性的同时，将通信成本显著降低了31%以上。 AI

影响降低了MoE模型中的通信开销，可能能够更有效地部署和扩展大型稀疏模型。

排序理由学术论文，详细介绍了优化MoE模型推理的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhiyao Xu, Aoxue Liu, Zhanjie Ding, Dan Zhao, Yong Jiang, Qing Li · 2026-06-02 04:00

Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference

arXiv:2606.01007v1 Announce Type: cross Abstract: Sparsely activated Mixture-of-Experts (MoE) models scale capacity via conditional computation, but distributed inference suffers from cross-GPU expert communication and routing-induced load imbalance. Existing placement methods re…

报道来源 [1]

Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference

相关实体

相关话题