研究人员推出了 Mamoda2.5,一个用于多模态理解和生成的统一 AR-Diffusion 框架。该模型利用了具有混合专家 (MoE) 设计的 Diffusion Transformer 主干,拥有 128 个专家和 Top-8 路由,形成了一个拥有 250 亿参数但仅激活 30 亿参数的模型。Mamoda2.5 在 VBench 2.0 的视频编辑质量方面表现出顶级性能,超越了开源模型,并可与 Kling O1 等专有模型相媲美。该框架还采用了一种蒸馏和强化学习方法,将 30 步编辑模型压缩为 4 步版本,与基线相比,推理速度提高了 95.9 倍。 AI
影响 Mamoda2.5 的高效 MoE 架构和加速推理有望为更易于访问和更强大的多模态 AI 工具铺平道路。
排序理由 这是一篇描述新多模态模型架构及其在基准测试中性能的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →