Arcee AI 发布了其开源 Trinity Large 大模型,这是一个拥有4000亿参数的混合专家模型,其中包含130亿激活参数。该模型采用了多项架构创新,包括以3:1比例交替的局部和全局注意力层,以及4096个token的窗口大小。它还具备用于训练稳定性的QK-Norm,全局注意力层中没有位置嵌入,以及用于提高泛化能力和缓解注意力汇聚问题的门控注意力机制。Arcee AI 还发布了更小的Trinity Mini和Trinity Nano版本,并附带了一份详细介绍该架构的技术报告。 AI
排序理由 发布了具有详细架构信息的开源大模型,但并非来自顶级前沿实验室。
在 Ahead of AI (Sebastian Raschka) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →