实体 deepseek-moe-16b-base

deepseek-moe-16b-base

PulseAugur coverage of deepseek-moe-16b-base — every cluster mentioning deepseek-moe-16b-base across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_122974 · Jul 3 · 04:00

新方法使用通用文本语料库剪枝MoE语言模型

研究人员开发了一种名为Generic TB-Coverage的新方法，用于剪枝稀疏激活的专家混合（MoE）语言模型。该技术解决了在无需特定下游校准数据的情况下移除冗余专家的挑战。通过利用WikiText2和C4等通用文本语料库，Generic TB-Coverage分别在每个语料库上分析每个专家的效用，并确保保留每个语料库中的高效用专家。这种方法在Qwen1.5-MoE-A2.7B和DeepSeek-MoE-16B-Base等模型上，…
TOOL · CL_58625 · May 29 · 04:00

ConMoE框架无需重新训练即可压缩MoE模型

研究人员开发了ConMoE，一种无需重新训练即可压缩混合专家（MoE）语言模型的新颖框架。该方法通过将原始专家引用重新分配给一组较小的选定原型来合并专家池。ConMoE使用基于校准的信号来选择要保留的专家以及如何重新映射调用，从而保留了原始路由器接口。在deepseek-moe-16b-base和Qwen3-30B-A3B等模型上进行的实验表明，与现有的剪枝和合并技术相比，ConMoE实现了具有竞争力或更优越的压缩率。

新方法使用通用文本语料库剪枝MoE语言模型

ConMoE框架无需重新训练即可压缩MoE模型