研究人员开发了 E-GRM,一个高效的生成式奖励建模框架,通过仅在必要时选择性地采用思维链(CoT)提示来增强 LLM 的推理能力。该方法利用来自并行生成收敛的模型内部不确定性,以避免在简单任务上产生不必要的计算成本。此外,E-GRM 包含一个轻量级的判别式评分器,具有混合回归-排名目标,用于更精确地评估推理路径,从而提高准确性并降低推理费用。 AI
影响 引入了一种通过仅在内部不确定性表明需要时应用复杂提示来降低 LLM 推理任务计算成本的方法。
排序理由 这是一篇详细介绍改进 LLM 推理新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →