PulseAugur
实时 03:09:19

openPangu发布支持512k上下文的openPangu-2.0-Flash MoE模型

openPangu-2.0-Flash模型是一种新的混合专家(MoE)架构,拥有920亿个总参数,激活60亿个参数。它支持512k token的上下文长度,并在34万亿token上进行了训练。关键的架构改进包括结合局部和全局上下文的高效注意力机制、用于增强表示的新型残差拓扑、用于更快推理的多token预测,以及使用Muon优化器进行训练。 AI

影响 该模型的大上下文窗口和高效的注意力机制可能为长文本分析和生成带来新的应用。

排序理由 Frontier-lab模型发布,附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

openPangu发布支持512k上下文的openPangu-2.0-Flash MoE模型

报道来源 [1]

  1. r/LocalLLaMA TIER_1 Bahasa(ID) · /u/jacek2023 ·

    README_EN.md · openpangu/openPangu-2.0-Flash at main

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1ukhu5g/readme_enmd_openpanguopenpangu20flash_at_main/"> <img alt="README_EN.md · openpangu/openPangu-2.0-Flash at main" src="https://external-preview.redd.it/5bnHpb9X-DikeZUKtcX5Ei84v15FqK4KITICc7ZOSrI.png?wi…