IBM 的 Granite 4.1 模型已从 Granite 4 的混合 mamba 注意力模型回归到纯 Transformer 架构。用户报告称,与前代产品相比,Granite 4.1 的上下文窗口显著减小,处理速度也变慢。这一变化引发了对 IBM 未来架构选择的疑问,以及是否会继续采用 mamba 混合方法。 AI
影响 Granite 4.1 回归 Transformer 架构可能会影响特定任务的性能和可用性。
排序理由 用户讨论已发布模型的架构变更,比较性能和功能。[lever_c_research降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →