PulseAugur
实时 14:01:54
实体 Candidate-aware Support Preservation

Candidate-aware Support Preservation

PulseAugur coverage of Candidate-aware Support Preservation — every cluster mentioning Candidate-aware Support Preservation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_96154 ·

    新的RLVR方法解决了探索崩溃问题

    研究人员发现,在具有可验证奖励的强化学习(RLVR)中存在一个关键问题,称为探索崩溃,即概率集中在排名最高的响应上,限制了不同的结果。为了解决这个问题,提出了一种名为候选感知支持保留(CaSP)的新方法。CaSP通过调整正确响应的梯度并惩罚错误的最高响应来工作,从而提高了各种基准测试和模型规模的性能。