实体 Mixture-of-Experts (MoE) models

Mixture-of-Experts (MoE) models

PulseAugur coverage of Mixture-of-Experts (MoE) models — every cluster mentioning Mixture-of-Experts (MoE) models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

significant 1
tool 2
commentary 1

主题

最近 · 第 1/1 页 · 共 4 条

SIGNIFICANT · CL_48042 · May 18 · 19:53

Fireworks AI 实现万亿参数 MoE 模型训练

Fireworks AI 开发了新的训练基础设施，能够微调万亿参数的混合专家（MoE）模型，克服了之前的内存和编排瓶颈。该平台在最近发布的 Cursor Composer 2.5 中发挥了关键作用，Composer 2.5 是一个在多个基准测试中取得顶尖性能的编码模型。该系统利用低精度专家量化和优化器状态卸载等技术来管理大型 MoE 模型内存需求，使其更容易进行训练和微调。
TOOL · CL_38263 · May 18 · 14:50

新基准DBES评估MoE模型中的专家专业化

研究人员推出了DBES，这是一个新的基准和指标套件，旨在系统地评估专家混合（MoE）模型中的专家专业化。该框架通过将功能专业化与架构负载均衡分离开来，超越了传统的评估方法，采用了路由专业化和领域隔离等指标。研究揭示了Qwen系列、DeepSeek和GLM等模型中独特的专业化模式，并证明DBES指标可以指导训练后优化，从而在资源减少的情况下，在专业领域实现显著的性能提升。
COMMENTARY · CL_35206 · May 17 · 03:00

AI 生产系统通过新的优化技术应对 MoE 挑战

SemiAnalysis 正在强调大规模 AI 模型（尤其是专家混合 (MoE) 架构）的生产系统挑战。他们指出，专家平衡和为不同工作负载分配专用资源等技术正从学术研究转向实际应用。稀疏注意力机制，以前仅限于基准测试，现在正被应用于生产系统，并引用了 DeepSeek Sparse Attention 和 NousResearch 的工作等示例。
TOOL · CL_47643 · Apr 2 · 09:00

Anyscale 为 vLLM 中的 MoE 模型增加了 Ray Serve 容错功能

Anyscale 为其 vLLM 服务引擎引入了新的容错功能，该引擎与 Ray Serve 集成。此增强功能专门解决了部署大型专家混合（MoE）模型的挑战，这些模型被分片到多个 GPU 上。当一个数据并行（DP）组中的单个 GPU 发生故障时，新系统现在可以识别并重新启动构成该 DP 组的整个 GPU 组，从而防止整个部署变得不可用。

Fireworks AI 实现万亿参数 MoE 模型训练

新基准DBES评估MoE模型中的专家专业化

AI 生产系统通过新的优化技术应对 MoE 挑战

Anyscale 为 vLLM 中的 MoE 模型增加了 Ray Serve 容错功能