English(EN) Process Supervision via Verbal Critique Improves Reasoning in Large Language Models

通过口头批评进行过程监督可提高大型语言模型的推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 12:36

研究人员开发了一种名为口头过程监督（VPS）的新框架，该框架无需梯度更新即可增强大型语言模型的推理能力。该方法利用更强大的AI生成的结构化自然语言批评来指导迭代的生成-批评-精炼过程。在GPQA Diamond和AIME 2025等基准测试上的实验表明，VPS取得了显著的改进，超越了现有的最先进结果，并优于Reflexion和Self-Consistency等其他方法。 AI

影响引入了一种无需重新训练即可提高LLM推理性能的新方法，有可能降低推理成本并提高复杂任务的准确性。

排序理由该集群描述了一篇详细介绍LLM推理新改进方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Hao-Yuan Chen · 2026-04-23 12:36

通过语言批评进行过程监督可提高大型语言模型的推理能力

Inference-time scaling for LLM reasoning has focused on three axes: chain depth, sample breadth, and learned step-scorers (PRMs). We introduce a fourth axis, granularity of external verbal supervision, via Verbal Process Supervision (VPS), a training-free framework that uses stru…

报道来源 [1]

通过语言批评进行过程监督可提高大型语言模型的推理能力

相关实体

相关话题