新的混合Mamba-Transformer专家混合(MoE)模型,例如NVIDIA的Nemotron 3 Nano Omni和Jamba,正在表现出性能停顿,而这些停顿在标准的推理仪表板中是看不见的。这些停顿发生在MoE路由层内的全通信过程中,尽管它们占总调用次数的比例较小,但却主导了尾部延迟。当前的指标,如GPU利用率和端到端延迟,会聚合这些问题,掩盖了对优化推理引擎至关重要的每层性能变化。 AI
影响 揭示了混合MoE模型中隐藏的性能瓶颈,促使需要新的推理引擎优化来改善延迟。
排序理由 文章详细介绍了特定类型LLM架构性能特征的技术分析,为推理引擎的优化策略提供了见解。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →