PulseAugur
实时 13:52:00
实体 Learnable Credit Assignment

Learnable Credit Assignment

PulseAugur coverage of Learnable Credit Assignment — every cluster mentioning Learnable Credit Assignment across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_115286 ·

    新的LCA框架通过可学习信用分配增强LLM推理能力

    研究人员引入了一个名为可学习信用分配(LCA)的新框架,以改进结果监督的过程奖励模型(PRM)的训练。这些PRM旨在通过提供详细反馈来增强大型语言模型(LLM)的推理能力。LCA解决了PRM中的信用分配挑战,当仅知道最终答案的正确性时,PRM传统上难以将最终结果归因于特定的推理步骤。所提出的方法将其形式化为一个多示例学习问题,并利用一种新颖的Softmax-加权求和池化技术,在实验中证明了其优于现有方法的性能。