PulseAugur
实时 16:52:17
实体 QK-Norm

QK-Norm

PulseAugur coverage of QK-Norm — every cluster mentioning QK-Norm across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_57927 ·

    开源大模型演进:注意力机制、多模态和效率提升

    近几个月来,开源大模型领域发生了重大变化,滑动窗口注意力机制已成为主流,支持更大的上下文窗口。QK-Norm 也因其作为训练稳定器的作用而受到关注,其根源可追溯至 Gemini 3 的架构。Kimi k2.5 中早期出现的多模态预训练,已被证明有利于推理,而 Z.ai 的 GLM-5,尽管经过修改,但性能可与顶级闭源模型相媲美。Step 3.5 Flash 在推理速度和多令牌预测方面表现突出,尽管基准测试性能并不总是与用户偏好一致。