PulseAugur
实时 11:09:28
实体 Qwen2.5-Math

Qwen2.5-Math

PulseAugur coverage of Qwen2.5-Math — every cluster mentioning Qwen2.5-Math across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_68473 ·

    新的RLVR方法解决了大型语言模型遗忘已解决问题的问题

    研究人员在可验证奖励强化学习(RLVR)中为大型语言模型识别出一种称为“正确集周转”的现象。此问题会导致模型在训练新问题时遗忘先前已解决的问题。为了解决这个问题,提出了一种新的名为“Remind”的保留感知审查机制。Remind旨在通过定期重新引入已解决的问题来明确优化获取和保留,并在各种基准和模态上展示了改进的性能。