IBM 发布了 Granite 4.1,这是一个专为企业设计的开源语言模型家族,包含三种尺寸(3B、8B 和 30B 参数)。值得注意的是,在 ArenaHard 和 GSM8K 等多项基准测试中,8B 密集模型表现出的性能与之前的 32B MoE 模型相当甚至更优。这一改进归功于 IBM 对数据质量的关注以及涉及 15 万亿 token 和迭代数据混合调整的复杂多阶段训练过程。 AI
影响 IBM 新推出的 Granite 4.1 模型,特别是高效的 8B 版本,为优先考虑性能和成本可预测性的企业提供了一个引人注目的替代方案。
排序理由 发布了一个开源模型家族,并提供了详细的性能基准和训练方法。
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →