English(EN) VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction

新的VI-CuRL框架在无外部验证器的情况下稳定大型语言模型推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

研究人员开发了VI-CuRL，一个旨在稳定大型语言模型强化学习的新框架，无需依赖外部验证器。该方法利用模型内部的置信度来指导训练，有效减少方差并防止常见的训练崩溃。VI-CuRL在各种推理基准测试中已显示出比现有方法更高的稳定性和性能。 AI

影响稳定用于推理任务的大型语言模型训练，可能提高AI代理的可靠性和可扩展性。

排序理由发布了一篇详细介绍大型语言模型推理新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xin-Qiang Cai, Masashi Sugiyama · 2026-05-25 04:00

VI-CuRL：通过置信度引导的方差缩减来稳定验证器无关的RL推理

arXiv:2602.12579v2 Announce Type: replace-cross Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a dominant paradigm for enhancing Large Language Models (LLMs) reasoning, yet its reliance on external verifiers limits its scalability. Recent findings …