实体 Qwen2.5-Math-1.5B

Qwen2.5-Math-1.5B

PulseAugur coverage of Qwen2.5-Math-1.5B — every cluster mentioning Qwen2.5-Math-1.5B across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_111725 · Jun 26 · 04:00

新方法使用错误草稿来提升LLM的数学能力

研究人员开发了一种名为“通过不匹配的错误草稿进行弱到强诱导”的新颖技术，以提高大型语言模型的能力。该方法涉及使用来自较小的、特定领域的模型的数学上不正确的草稿来训练一个更大的模型，其性能优于标准的强化学习微调。该技术在MATH-500和分布外AIME 2025/2026基准测试中显示出显著的提升，为Mathstral-7B模型实现了新的最先进水平。
RESEARCH · CL_50951 · May 26 · 04:00

新研究推进机器人和LLM的策略优化

研究人员引入了几种新方法来增强强化学习中的策略优化，特别是针对涉及机器人和大型语言模型（LLM）的复杂任务。MODIP旨在通过使用世界模型来指导适应，从而高效地微调机器人学习中的扩散策略，与标准的模仿学习相比，提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外，CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…
TOOL · CL_42865 · May 21 · 15:57

Qwen2.5-Math-1.5B模型针对数学任务进行微调

一份技术指南详细介绍了微调Qwen2.5-Math-1.5B模型的过程。文章概述了将此特定语言模型应用于数学任务的步骤，以期提高其性能或定制化以适应特定应用。
RESEARCH · CL_27737 · May 9 · 10:51

新的强化学习方法提升大语言模型的推理和效率

两篇新的研究论文介绍了用于增强语言模型推理的新型强化学习技术。第一篇 GAGPO 提出了一种无批评者的方法，用于在多轮环境中进行精确的时间信用分配，从而改进了与步骤对齐的学习。第二篇 CoDistill-GRPO 提出了一种联合蒸馏方法，用于同时训练大型和小型语言模型，使得分组相对策略优化对于小型模型来说更高效、更易于使用。

新方法使用错误草稿来提升LLM的数学能力

新研究推进机器人和LLM的策略优化

Qwen2.5-Math-1.5B模型针对数学任务进行微调

新的强化学习方法提升大语言模型的推理和效率