English(EN) Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

新型 E-GRM 模型仅在需要时触发复杂推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了 E-GRM，一个高效的生成式奖励建模框架，通过仅在必要时选择性地采用思维链（CoT）提示来增强 LLM 的推理能力。该方法利用来自并行生成收敛的模型内部不确定性，以避免在简单任务上产生不必要的计算成本。此外，E-GRM 包含一个轻量级的判别式评分器，具有混合回归-排名目标，用于更精确地评估推理路径，从而提高准确性并降低推理费用。 AI

影响引入了一种通过仅在内部不确定性表明需要时应用复杂提示来降低 LLM 推理任务计算成本的方法。

排序理由这是一篇详细介绍改进 LLM 推理新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Chao Xue, Yao Wang, Mengqiao Liu, Di Liang, Xingsheng Han, Peiyang Liu, Xianjie Wu, Chenyao Lu, Lei Jiang, Yu Lu, Haibo Shi, Shuang Liang, Minlong Peng, Flora D. Salim · 2026-05-05 04:00

Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

arXiv:2604.10072v4 Announce Type: replace Abstract: Recent advancements in the Generative Reward Model (GRM) have demonstrated its potential to enhance the reasoning abilities of LLMs through Chain-of-Thought (CoT) prompting. Despite these gains, existing implementations of GRM s…

报道来源 [1]

Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

相关实体

相关话题