一位开发者创建了SM1,这是Mamba1架构的一个变体,针对PyTorch进行了优化,并能在NVIDIA Blackwell硬件上运行。SM1用两个原生的PyTorch操作替换了选择性扫描,实现了d_state=1递归的精确闭式解。这种优化显著降低了内存使用量,一个拥有1.3亿参数的模型仅需56KB的推理状态,无需KV缓存。 AI
影响 这种优化的Mamba变体可能导致某些序列建模任务的训练和推理效率更高。
排序理由 开发者基于现有架构创建了一个新的模型变体,详细介绍了其技术实现和优化。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →