实体 mixture of experts

mixture of experts

PulseAugur coverage of mixture of experts — every cluster mentioning mixture of experts across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

186

90 天内 186

发布 · 30天

90 天内 0

论文 · 30天

150

90 天内 150

层级分布 · 90 天

frontier release 9
significant 5
research 72
tool 96
commentary 4

主题

论文 150
模型发布 111
基础设施 63
产品 28
其他 21
安全 9
融资 1

关系

instance of Mixture of Experts (MoE) 95%
instance of arXiv 90%
instance of large-language models 90%
instance of Gotit.pub 90%
instance of ScienceCast 90%
instance of DagsHub 90%
instance of alphaXiv 90%
instance of GPT OSS 20B 90%
instance of Sparse Mixture of Experts 90%
instance of DeepSeek MoE 90%
instance of OLMoE-1B-7B 90%
used by SGLang 90%

时间线

2026-05-11 research_milestone A new paper proposes an enhanced Mixture-of-Experts framework for faster time series forecasting model training. 来源

情绪 · 30 天

25 天有情绪数据

最近 · 第 1/10 页 · 共 186 条

TOOL · CL_133547 · Jul 9 · 04:00

ButterflyMoE 将 MoE 模型内存使用量减少 80 倍

研究人员开发了 ButterflyMoE，这是一种新颖的专家混合（MoE）架构，旨在显著降低内存需求。与传统 MoE 模型中内存与专家数量成线性比例不同，ButterflyMoE 将专家视为共享量化基底的不同几何方向。这种方法可以大幅减少内存，在拥有 8 个专家的情况下实现 80 倍的内存减少，同时性能优于同等内存使用量的密集基线模型。当扩展到 256 个专家时，内存压缩渐近达到 150 倍，展示了一种每字节提取更多效用并解决线性扩展瓶颈的方法。
TOOL · CL_133498 · Jul 9 · 04:00

NEST框架通过面向模式的专家混合模型应对数据集变化

研究人员推出了一种新颖的NEST框架，旨在解决复杂系统中数据集级别的分布变化问题，特别适用于长期预测。NEST采用两阶段的专家混合（MoE）架构，通过首先将数据聚类为不同的运行模式来建模和重构演变结构。一个面向模式的路由器随后指导专门的专家捕捉模式特定的动态，从而在各种基准测试中取得了最先进的性能。
TOOL · CL_133496 · Jul 9 · 04:00

TriRoute 论文介绍统一控制器以实现自适应 LLM 推理

研究人员推出 TriRoute，这是一个新颖的系统，旨在通过联合管理注意力分辨率、专家选择和 KV 缓存量化来优化语言模型推理成本。这个统一控制器为每一层的每个 token 调整其策略，确定注意模式、FFN 专家使用情况和 KV 缓存位宽。TriRoute 在独立优化方法上展示了帕累托优势，在处理稀有实体、代码和算术方面显著提高了性能，同时保持了鲁棒性。
TOOL · CL_131568 · Jul 8 · 04:00

TRACE框架对因果表示学习中连续机制演化进行建模

研究人员推出了一种新颖的专家混合（Mixture-of-Experts）框架TRACE，旨在解决当前时间因果表示学习方法的局限性。与假设因果机制之间瞬时切换的现有方法不同，TRACE通过将连续过渡表示为原子机制的凸组合来对其进行建模。该框架能够恢复潜在因果变量和连续混合轨迹，即使是训练期间未见的中间状态。实验表明，TRACE可以将混合轨迹的相关性提高到0.99，显著优于离散切换基线。
TOOL · CL_131503 · Jul 8 · 04:00

新参数无关专家路由方法揭晓，适用于MoE模型

研究人员推出了一种新颖的参数无关方法Self-Routing，用于混合专家（MoE）层，无需专门学习的路由器。该方法直接利用token的隐藏状态子空间将token分配给专家，简化了MoE架构。在语言建模和ImageNet-1K分类上的评估表明，Self-Routing在性能上与学习型路由器相当，提供了更均衡的专家利用率，并消除了路由参数。
RESEARCH · CL_133210 · Jul 8 · 00:00

LingBot-Video：开源专家混合模型视频用于具身AI发布

研究人员推出LingBot-Video，一个专为具身智能应用设计的创新视频预训练框架。该框架采用了专家混合（MoE）架构、扩散Transformer（DiT）和专门的数据增强技术。该系统使用多维度奖励系统进行训练，以确保物理合理性和任务完成，旨在弥合数字创意与物理机器人之间的差距。
SIGNIFICANT · CL_130382 · Jul 7 · 15:13

Tencent 发布 Hy3，一款专注于智能体性能的 295B MoE 模型

Tencent 已正式发布其 Hunyuan Hy3，这是一款拥有 2950 亿参数的混合专家（MoE）模型，其中包含 210 亿活跃参数和 256K 上下文窗口。该模型采用 Apache 2.0 许可，并强调实际的智能体性能，在任务解决和实际应用方面表现出显著的改进。虽然 Hy3 不是最大的模型，但它被定位为 Tencent 最实用的 AI 产品，已集成到其九款以上的产品中，并且定价具有竞争力。
RESEARCH · CL_131286 · Jul 7 · 12:25

新的 UBEP 库大幅降低超级节点上 MoE 模型延迟 · 跟踪 2 个来源

研究人员开发了 UBEP（统一总线专家并行），这是一个新的通信库，旨在优化大规模超级节点上的混合专家（MoE）模型。UBEP 解决了 MoE 通信中的关键瓶颈，包括执行序列化、同步开销和负载不平衡，这些在 NVIDIA 的 NVL72/576 和华为的 CloudMatrix384 等系统中普遍存在。实验表明，UBEP 可将 All-to-All 延迟最多降低 52.4%，并将 MoE 推理每输出令牌时间（TPOT）最多提高 11.1%。
TOOL · CL_128875 · Jul 7 · 04:00

Worldscape-MoE: 统一的专家混合世界模型，用于可扩展的动作控制

研究人员推出了 Worldscape-MoE，这是一种新颖的专家混合（Mixture-of-Experts）世界模型，专为可扩展的异构动作控制而设计。该模型基于 Diffusion Transformers 构建，旨在将摄像头轨迹和机器人动作等不同的控制接口统一到一个单一框架中，以保留对世界动态的共享理解。实验表明，整合多样化的动作监督可以提高个体控制能力，从而在 WorldArena 等基准测试中取得优异表现并实现强大的泛化能力。
RESEARCH · CL_128401 · Jul 7 · 03:45

PuzzleMoE 提供通过稀疏合并实现的高效 MoE 模型压缩

研究人员开发了 PuzzleMoE，一种无需重新训练即可压缩大型混合专家（MoE）模型的新颖方法。该技术通过采用稀疏专家合并来解决 MoE 模型显著的内存开销，该合并识别并组合冗余和专业化的参数。此外，PuzzleMoE 引入了一种比特打包编码方案，以有效地在 GPU 上存储模型组件，进一步减少内存使用并加速推理。实验表明，PuzzleMoE 可以在保持准确性的同时将 MoE 模型大小减半，甚至在 MMLU 等基准测试中优于现有的压缩方法。
TOOL · CL_127567 · Jul 6 · 00:00

苹果研究人员提出PathMoE，以实现更高效的稀疏AI模型

苹果公司的研究人员推出了一种名为PathMoE的新型专家混合（MoE）模型方法。该方法通过“专家路径”来观察计算过程，专家路径是指token在跨层选择专家的序列。研究发现，token倾向于集中在少量可能的路径上，这表明当前MoE架构存在统计效率低下问题。PathMoE旨在通过约束有效路径空间来放大这种自然的集中趋势，从而在困惑度（perplexity）和下游任务上实现比独立路由方法更一致的路由和更好的性能。
TOOL · CL_125613 · Jul 4 · 21:56

新的 USAF 方法允许在消费级 GPU 上微调 MoE 模型

一种名为 USAF 的新开源微调方法已被开发出来，旨在实现混合专家（MoE）模型在消费级 GPU 上的微调。该方法侧重于训练稀疏专家权重和路由器，使得在仅拥有 12GB 显存的硬件上也能微调 Qwen3-30B-A3B 等模型。该项目在 Apache 2.0 许可下发布，没有商业意图，鼓励社区反馈。
TOOL · CL_123295 · Jul 3 · 04:00

LLM驱动的框架提升自动驾驶感知能力

研究人员开发了一个名为LM-SCIP的新框架，该框架利用大型语言模型（LLMs）来增强自动驾驶系统的多模态融合。该框架通过动态适应不同的输入质量来应对融合视觉和雷达数据时面临的挑战。LM-SCIP使用LLM作为核心推理引擎，将视觉信息与雷达数据集成，尤其是在视觉输入受损的情况下。在nuScenes和VIRAT数据集上的实验表明，在不同信噪比下，该系统的定位和轨迹预测能力得到了显著提升，证明了其鲁棒性。
TOOL · CL_123052 · Jul 3 · 04:00

新的MoP训练栈支持万亿参数MoE模型和1M上下文

研究人员推出了一种名为Mixture-of-Parallelisms (MoP) 的新型训练栈，旨在提高专家混合 (MoE) 模型的内存效率。该方法将各种现有和新的并行技术整合到MoE训练流水线的不同层和阶段。MoP针对CPU、GPU内存和通信带宽进行优化，使得使用相对较小的128x H200 GPU集群即可训练具有百万token上下文长度的万亿参数模型。实验结果表明，与标准基线相比，MoP实现了显著更高的每GPU吞吐量，并支持更长的上下文长度。
TOOL · CL_122974 · Jul 3 · 04:00

新方法使用通用文本语料库剪枝MoE语言模型

研究人员开发了一种名为Generic TB-Coverage的新方法，用于剪枝稀疏激活的专家混合（MoE）语言模型。该技术解决了在无需特定下游校准数据的情况下移除冗余专家的挑战。通过利用WikiText2和C4等通用文本语料库，Generic TB-Coverage分别在每个语料库上分析每个专家的效用，并确保保留每个语料库中的高效用专家。这种方法在Qwen1.5-MoE-A2.7B和DeepSeek-MoE-16B-Base等模型上，…
TOOL · CL_121492 · Jul 2 · 04:00

新的MEPA架构通过专家混合增强视觉自回归建模

研究人员开发了MEPA，一种新颖的专家混合（MoE）架构，旨在改进视觉自回归建模。MEPA通过实现自适应专家选择来解决多尺度表示学习中的局限性，从而解耦不同尺度的表示学习。该模型还整合了外部自监督特征以增强早期阶段的语义建模，并采用了一种针对视觉自回归范式定制的残差特征聚合方案。实验表明，MEPA显著提高了训练效率和生成质量，在ImageNet 256x256基准测试中取得了优越的FID分数，同时减少了训练周期并降低了与密集基线相比的参数预算。
TOOL · CL_123033 · Jul 1 · 20:08

剪枝 MoE 模型影响生物医学领域的事实可靠性

一篇新论文探讨了剪枝专家混合 (MoE) 模型对其事实可靠性的影响，特别是在生物医学领域。研究人员发现，适度剪枝可以在不显著降低领域内任务可靠性的情况下保持效用。然而，极端剪枝比例会增加幻觉风险，并且当模型应用于通用领域时，性能会迅速下降。该研究强调，仅凭效用评估剪枝后的 MoE 模型不足以应对高风险应用，必须进行可靠性评估。
TOOL · CL_121225 · Jul 1 · 07:59

BrainFIBRE：用于大脑微观结构分析的新基础模型

研究人员推出 BrainFIBRE，这是一种新颖的基础模型，用于利用扩散加权磁共振成像 (dMRI) 数据分析大脑微观结构。该模型利用自监督部分信息分解技术 (SPID) 和混合专家架构，从不同的 dMRI 衍生图谱中分离出独特、协同和冗余的信息。BrainFIBRE 在超过 55,000 名 UK Biobank 参与者的数据上进行了预训练，在预测各种健康标记物和认知能力方面表现出最先进的性能，同时还提供了神经生物学上可解释的表征。
TOOL · CL_119412 · Jul 1 · 04:00

新的基础模型整合时间序列和强化学习以实现个性化投资

研究人员开发了一种新颖的三阶段基础模型，用于通过深度强化学习实现个性化投资组合管理。该系统通过避免股票代码锁定、采用整体目标和使用静态用户模型来解决先前工作的局限性。该模型整合了时间序列基础模型 Chronos 和专家混合（Mixture of Experts）架构，以同时追求多个投资目标，包括税损收割。通过在个人交易历史记录上进行微调的轻量级 LoRA 模块实现个性化，从交易行为中推断出目标。
TOOL · CL_119346 · Jun 30 · 17:59

FaceMoE架构提升低分辨率人脸识别性能

研究人员推出了一种新颖的专家混合（MoE）Transformer架构FaceMoE，旨在提高低分辨率人脸识别能力。该架构采用专门的前馈网络专家和top-k路由器，动态分配token，促进不同面部区域的专家专业化。FaceMoE旨在增强低分辨率图像中的特征提取和聚合，同时缩小高分辨率和低分辨率数据之间的域差距。模型采用组合损失函数进行训练，以确保专家专业化和训练稳定性。大量实验表明，该模型在各种基准测试中均优于现有最先进方法。

ButterflyMoE 将 MoE 模型内存使用量减少 80 倍

NEST框架通过面向模式的专家混合模型应对数据集变化

TriRoute 论文介绍统一控制器以实现自适应 LLM 推理

TRACE框架对因果表示学习中连续机制演化进行建模

新参数无关专家路由方法揭晓，适用于MoE模型

LingBot-Video：开源专家混合模型视频用于具身AI发布

Tencent 发布 Hy3，一款专注于智能体性能的 295B MoE 模型

新的 UBEP 库大幅降低超级节点上 MoE 模型延迟 · 跟踪 2 个来源

Worldscape-MoE: 统一的专家混合世界模型，用于可扩展的动作控制

PuzzleMoE 提供通过稀疏合并实现的高效 MoE 模型压缩

苹果研究人员提出PathMoE，以实现更高效的稀疏AI模型

新的 USAF 方法允许在消费级 GPU 上微调 MoE 模型

LLM驱动的框架提升自动驾驶感知能力

新的MoP训练栈支持万亿参数MoE模型和1M上下文

新方法使用通用文本语料库剪枝MoE语言模型

新的MEPA架构通过专家混合增强视觉自回归建模

剪枝 MoE 模型影响生物医学领域的事实可靠性

BrainFIBRE：用于大脑微观结构分析的新基础模型

新的基础模型整合时间序列和强化学习以实现个性化投资

FaceMoE架构提升低分辨率人脸识别性能