实体 Qwen3-Next

Qwen3-Next

PulseAugur coverage of Qwen3-Next — every cluster mentioning Qwen3-Next across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_135199 · Jul 9 · 00:27

新框架衡量大型语言模型教育控制能力，揭示难度调整差距

研究人员开发了一个新的框架，该框架与Bloom分类法对齐，用于衡量大型语言模型（LLMs）在多大程度上能够调整教育任务的认知需求。当应用于编程任务时，该框架显示LLMs可以有效地提高任务难度，但在降低难度方面存在困难，这表明其在强大的执行性能和自适应教育控制之间存在差距。该研究特别比较了两个Qwen3-Next模型，Qwen3-Next-80B-A3B-Instruct和Qwen3-Coder-Next，在2520个任务上进行了测试，…
TOOL · CL_15969 · May 5 · 04:00

Attention Sink 研究揭示了 LLM 注意力层中固有的 MoE 结构

研究人员发现，大型语言模型中的注意力汇聚现象（即第一个 token 获得不成比例的注意力）会在注意力层内自然形成一个专家混合（MoE）机制。这一发现有助于解释仅部分注意力头被利用的“头坍塌”问题。为解决此问题，研究者提出了一种新的、具有辅助负载均衡损失的 Sink-Aware 训练算法，该算法在不同注意力机制上均显示出改进的性能和有效的头负载均衡。
TOOL · CL_47613 · Apr 28 · 02:00

Qwen 为门控 Delta 网络开发 FlashQLA 以实现高效注意力机制

Qwen 开发了 FlashQLA，这是一套新的融合线性注意力内核，旨在兼容深度学习中的前向和后向传播。这些内核针对门控 Delta 网络（GDN）进行了优化，GDN 现在是 Qwen 模型家族的核心组成部分，包括 Qwen3-Next 及其后续迭代，如 Qwen3.5 和 Qwen3.6。此开发旨在提高具有扩展上下文窗口的大模型的效率和可扩展性。