小米发布了MiMo-V2.5-Pro-FP4-DFlash,这是一款为高效推理而优化的新模型。它采用了专家级FP4量化,以减小内存占用和带宽压力,同时保持质量。该模型还集成了BF16 DFlash草稿器,用于推测性解码,通过每次前向传播提出token块来实现更快的token生成。 AI
影响 能够更高效地部署大型语言模型,可能降低推理成本并提高可访问性。
排序理由 知名科技公司发布模型。 [lever_c_demoted from frontier_release: ic=1 ai=1.0]
在 Hugging Face Trending Models 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →