新研究解决大型语言模型中的推理退化和效率问题

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-17 22:04

两篇新研究论文探讨了在大型语言模型中保持推理过程完整性的方法。第一篇论文《Reasoning-Trace Collapse》指出，即使最终答案正确，在标准指令-响应数据上进行微调也会导致显式推理痕迹退化。该论文提出了一种结构化评估框架来评估推理的可靠性，并提出了损失掩码策略来缓解这种退化。第二篇论文《Stop When Reasoning Converges》引入了 PUMA 框架，该框架可以检测推理步骤中的语义冗余，从而实现提前退出。该方法旨在通过在推理过程稳定后停止推理来减少 token 使用量和延迟，同时保持答案的准确性和保留的推理链的连贯性。 AI

影响这些论文强调了大型语言模型推理的完整性和效率方面存在的关键问题，并提出了新的评估指标和推理技术，有望带来更可靠、性能更强的模型。

排序理由两篇在 arXiv 上发表的学术论文，讨论了用于评估和优化大型语言模型推理的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Jie M. Zhang · 2026-05-20 12:58

推理-轨迹崩溃：评估微调过程中显式推理的损失

Explicit reasoning models are trained to produce intermediate reasoning traces before final answers, but downstream fine-tuning is often performed on ordinary instruction-response data that contains no such traces. We show that this mismatch can induce reasoning-trace collapse: a…
arXiv cs.CL TIER_1 English(EN) · Lu Cheng · 2026-05-17 22:04

当推理收敛时停止：面向推理模型的语义保留早期退出

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rel…

报道来源 [2]

推理-轨迹崩溃：评估微调过程中显式推理的损失

当推理收敛时停止：面向推理模型的语义保留早期退出

相关实体

相关话题