研究人员开发了COREY,一种旨在优化Mamba选择性状态空间模型(SSM)性能的新运行时调度器。COREY将激活熵映射到分块大小,以提高选择性扫描内核的效率。尽管COREY在内核级别上显著降低了延迟,在消费级GPU上实现了高达4.41倍的提升,但由于调度开销,其端到端性能并未超过静态分块调优。 AI
影响 COREY展示了优化SSM性能的潜力,尽管目前的实现表明静态调优仍具竞争力。
排序理由 这是一篇详细介绍Mamba SSM新调度方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →