PulseAugur
实时 09:27:55
实体 Moonlight-16B-A3B-Instruct

Moonlight-16B-A3B-Instruct

PulseAugur coverage of Moonlight-16B-A3B-Instruct — every cluster mentioning Moonlight-16B-A3B-Instruct across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_48596 ·

    新技术循环 Transformer 层以提升模型性能

    研究人员开发了一种名为无训练循环 Transformer 的新颖技术,该技术可在无需任何额外训练或架构修改的情况下提升现有冻结语言模型的性能。该方法在推理时应用一个轻量级包装器来循环连续的层块,将其视为常微分方程近似的精炼,而不是直接更新。该方法已在不同模型系列中展示了性能提升,包括 Qwen3 和 Moonlight 等模型在 MMLU-Pro、CommonsenseQA 和 OpenBookQA 等基准测试上取得了显著的提升。