研究人员开发了一种新颖的方法,通过惩罚其思维链(CoT)追踪中的内部和外部冗余来减少大型推理模型(LRM)的“过度思考”。这种双重惩罚强化学习框架分别解决了第一个正确答案之前的信��停滞和之后的冗余延续问题。在GSM8K和MATH500等基准测试上的实验表明,推理长度显著缩短,在1.5B模型上最多可减少41.3%,同时保持了具有竞争力的准确性并提高了整体效率。该方法还显示出对GPQA和LiveCodeBench等域外任务的可迁移性,为构建更简洁、更具可解释性的LRM指明了方向。 AI
影响 降低了推理成本,提高了大型推理模型的可解释性。
排序理由 该集群包含一篇学术论文,详细介绍了一种提高大语言模型推理效率的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →