实体 Qwen3-Base

Qwen3-Base

PulseAugur coverage of Qwen3-Base — every cluster mentioning Qwen3-Base across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_70311 · Jun 4 · 04:00

新的回放方法提升 GRPO 在 LLM 推理方面的性能

研究人员为 GRPO（一种用于改进 LLM 推理的强化学习技术）开发了一种新的经验回放方法。该方法通过存储和采样单个轮次，防止它们过时并破坏训练稳定性，从而解决了标准 GRPO 的样本效率低下问题。所提出的系统根据优势幅度优先处理轮次，从而能够高效地回收有价值的数据。在 Qwen3-Base 模型上的实验表明，在多个数学基准测试中性能显著提升，且模型越大，提升越明显。