PulseAugur
实时 02:28:30
English(EN) A Dream of Spring for Open-Weight LLMs: 10 Architectures from Jan-Feb 2026

2026年初开源大模型发布激增,架构创新层出不穷

Arcee AI 发布了其开源 Trinity Large 大模型,这是一个拥有4000亿参数的混合专家模型,其中包含130亿激活参数。该模型采用了多项架构创新,包括以3:1比例交替的局部和全局注意力层,以及4096个token的窗口大小。它还具备用于训练稳定性的QK-Norm,全局注意力层中没有位置嵌入,以及用于提高泛化能力和缓解注意力汇聚问题的门控注意力机制。Arcee AI 还发布了更小的Trinity Mini和Trinity Nano版本,并附带了一份详细介绍该架构的技术报告。 AI

排序理由 发布了具有详细架构信息的开源大模型,但并非来自顶级前沿实验室。

在 Ahead of AI (Sebastian Raschka) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

2026年初开源大模型发布激增,架构创新层出不穷

报道来源 [1]

  1. Ahead of AI (Sebastian Raschka) TIER_1 English(EN) · Sebastian Raschka, PhD ·

    开源大语言模型春日之梦:2026年1月至2月10款架构

    A Round Up And Comparison of 10 Open-Weight LLM Releases in Spring 2026