PulseAugur
实时 10:54:47
English(EN) Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

新型 E-GRM 模型仅在需要时触发复杂推理

研究人员开发了 E-GRM,一个高效的生成式奖励建模框架,通过仅在必要时选择性地采用思维链(CoT)提示来增强 LLM 的推理能力。该方法利用来自并行生成收敛的模型内部不确定性,以避免在简单任务上产生不必要的计算成本。此外,E-GRM 包含一个轻量级的判别式评分器,具有混合回归-排名目标,用于更精确地评估推理路径,从而提高准确性并降低推理费用。 AI

影响 引入了一种通过仅在内部不确定性表明需要时应用复杂提示来降低 LLM 推理任务计算成本的方法。

排序理由 这是一篇详细介绍改进 LLM 推理新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新型 E-GRM 模型仅在需要时触发复杂推理

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Chao Xue, Yao Wang, Mengqiao Liu, Di Liang, Xingsheng Han, Peiyang Liu, Xianjie Wu, Chenyao Lu, Lei Jiang, Yu Lu, Haibo Shi, Shuang Liang, Minlong Peng, Flora D. Salim ·

    Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

    arXiv:2604.10072v4 Announce Type: replace Abstract: Recent advancements in the Generative Reward Model (GRM) have demonstrated its potential to enhance the reasoning abilities of LLMs through Chain-of-Thought (CoT) prompting. Despite these gains, existing implementations of GRM s…