PulseAugur
实时 06:39:58
实体 Compressed Sparse Attention

Compressed Sparse Attention

PulseAugur coverage of Compressed Sparse Attention — every cluster mentioning Compressed Sparse Attention across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_48043 ·

    DeepSeek-V4采用新颖的路由和奖励方法进行训练

    DeepSeek-V4引入了新颖的训练技术,包括“预期路由”(Anticipatory Routing),通过使用旧权重进行路由决策来稳定训练;以及“生成奖励模型”(GRM),在该模型中,模型本身充当复杂任务的裁判。该模型还支持三种不同的推理模式(非思考、高思考、最大思考),并针对不同的推理深度进行了不同的配置训练。这些进步凸显了对灵活、可编程的训练基础设施的需求,这种基础设施能够适应复杂的、共同设计的模型和运行时系统。

  2. FRONTIER RELEASE · CL_47594 ·

    Qwen 发布 27B 多模态模型,用于高级编码

    Qwen 发布了 Qwen3.6-27B,这是一个拥有 270 亿参数的密集多模态模型,专为高级编码任务设计。该模型旨在提供旗舰级的智能体编码性能,超越了此前该类别中的开源模型。社区成员已经发布了 Qwen3.6-27B 的不同量化版本,可在 Hugging Face 上获取,方便其在不同平台和库中使用。