Together AI发布了Mamba-3,这是一种新的状态空间模型(SSM),它优先考虑推理效率而非训练速度。该模型具有更具表现力的递归公式、复值状态跟踪以及增强准确性而不牺牲解码速度的多输入多输出(MIMO)变体。在1.5B参数规模下,Mamba-3 SISO在预填充和解码延迟方面表现优于之前的Mamba版本,甚至优于Llama-3.2-1B Transformer模型。该团队还开源了该模型的内核,这些内核是与卡内基梅隆大学、普林斯顿大学和Cartesia AI的研究人员合作开发的。 AI
影响 为状态空间模型的推理效率树立了新的基准,可能影响未来LLM的架构和部署策略。
排序理由 前沿AI实验室(Together AI)发布新模型,并声称其性能。 [lever_c_demoted from frontier_release: ic=1 ai=1.0]
- Carnegie Mellon University
- Cartesia AI
- Llama-3.2-1B
- Mamba-2
- Mamba-3
- Princeton University
- Together AI
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →