实体
Qwen2.5-Math-1.5B
Qwen2.5-Math-1.5B
PulseAugur coverage of Qwen2.5-Math-1.5B — every cluster mentioning Qwen2.5-Math-1.5B across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Qwen2.5-Math-1.5B model fine-tuned for mathematical tasks
A technical guide details the process of fine-tuning the Qwen2.5-Math-1.5B model. The article outlines the steps involved in adapting this specific language model for mathematical tasks, likely to improve its performanc…
-
新的强化学习方法提升大语言模型的推理和效率
两篇新的研究论文介绍了用于增强语言模型推理的新型强化学习技术。第一篇 GAGPO 提出了一种无批评者的方法,用于在多轮环境中进行精确的时间信用分配,从而改进了与步骤对齐的学习。第二篇 CoDistill-GRPO 提出了一种联合蒸馏方法,用于同时训练大型和小型语言模型,使得分组相对策略优化对于小型模型来说更高效、更易于使用。