一种名为 USAF 的新开源微调方法已被开发出来,旨在实现混合专家(MoE)模型在消费级 GPU 上的微调。该方法侧重于训练稀疏专家权重和路由器,使得在仅拥有 12GB 显存的硬件上也能微调 Qwen3-30B-A3B 等模型。该项目在 Apache 2.0 许可下发布,没有商业意图,鼓励社区反馈。 AI
影响 降低了微调大型 MoE 模型的门槛,可能促使在消费级硬件上进行更广泛的实验和定制。
排序理由 发布了一种用于 MoE 模型的开源微调方法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →