PulseAugur
实时 16:36:42
English(EN) Granite 4.1 Architecture Changes?

IBM 的 Granite 4.1 架构回归 Transformer,用户报告速度变慢

IBMGranite 4.1 模型已从 Granite 4 的混合 mamba 注意力模型回归到纯 Transformer 架构。用户报告称,与前代产品相比,Granite 4.1 的上下文窗口显著减小,处理速度也变慢。这一变化引发了对 IBM 未来架构选择的疑问,以及是否会继续采用 mamba 混合方法。 AI

影响 Granite 4.1 回归 Transformer 架构可能会影响特定任务的性能和可用性。

排序理由 用户讨论已发布模型的架构变更,比较性能和功能。[lever_c_research降级:ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/the-salami ·

    Granite 4.1 架构变更?

    <!-- SC_OFF --><div class="md"><p>Hey all. Anyone know why IBM decided to return to a pure transformer model for Granite 4.1? They mention in their release post that it's easier to fine-tune than Granite 4, but surely the drawbacks outweigh this benefit, especially for a model th…