PulseAugur
实时 09:53:47
实体 Qwen3-Base

Qwen3-Base

PulseAugur coverage of Qwen3-Base — every cluster mentioning Qwen3-Base across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_70311 ·

    新的回放方法提升 GRPO 在 LLM 推理方面的性能

    研究人员为 GRPO(一种用于改进 LLM 推理的强化学习技术)开发了一种新的经验回放方法。该方法通过存储和采样单个轮次,防止它们过时并破坏训练稳定性,从而解决了标准 GRPO 的样本效率低下问题。所提出的系统根据优势幅度优先处理轮次,从而能够高效地回收有价值的数据。在 Qwen3-Base 模型上的实验表明,在多个数学基准测试中性能显著提升,且模型越大,提升越明显。