English(EN) Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

Mamoda2.5 模型集成了多模态 AI 和高效的 DiT-MoE，用于顶级视频编辑

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-04 14:26

研究人员推出了 Mamoda2.5，一个用于多模态理解和生成的统一 AR-Diffusion 框架。该模型利用了具有混合专家 (MoE) 设计的 Diffusion Transformer 主干，拥有 128 个专家和 Top-8 路由，形成了一个拥有 250 亿参数但仅激活 30 亿参数的模型。Mamoda2.5 在 VBench 2.0 的视频编辑质量方面表现出顶级性能，超越了开源模型，并可与 Kling O1 等专有模型相媲美。该框架还采用了一种蒸馏和强化学习方法，将 30 步编辑模型压缩为 4 步版本，与基线相比，推理速度提高了 95.9 倍。 AI

影响 Mamoda2.5 的高效 MoE 架构和加速推理有望为更易于访问和更强大的多模态 AI 工具铺平道路。

排序理由这是一篇描述新多模态模型架构及其在基准测试中性能的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Yangming Shi, Shixiang Zhu, Tao Shen, Zhimiao Yu, Dengsheng Chen, Taicai Chen, Yunfei Yang, Juan Zhou, Chen Cheng, Liang Ma, Xibin Wu, Benxuan Yan, Ge Li, Tuoyu Zhang, Dan Li, Chang Liu, Zhenbang Sun · 2026-05-05 04:00

Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

arXiv:2605.02641v1 Announce Type: new Abstract: We present Mamoda2.5, a unified AR-Diffusion framework that seamlessly integrates multimodal understanding and generation within a single architecture. To efficiently enhance the model's generation capability, we equip the Diffusion…
arXiv cs.CV TIER_1 English(EN) · Zhenbang Sun · 2026-05-04 14:26

Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

We present Mamoda2.5, a unified AR-Diffusion framework that seamlessly integrates multimodal understanding and generation within a single architecture. To efficiently enhance the model's generation capability, we equip the Diffusion Transformer backbone with a fine-grained Mixtur…

报道来源 [2]

Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

相关实体

相关话题