PulseAugur
实时 20:48:01
English(EN) VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction

新的VI-CuRL框架在无外部验证器的情况下稳定大型语言模型推理

研究人员开发了VI-CuRL,一个旨在稳定大型语言模型强化学习的新框架,无需依赖外部验证器。该方法利用模型内部的置信度来指导训练,有效减少方差并防止常见的训练崩溃。VI-CuRL在各种推理基准测试中已显示出比现有方法更高的稳定性和性能。 AI

影响 稳定用于推理任务的大型语言模型训练,可能提高AI代理的可靠性和可扩展性。

排序理由 发布了一篇详细介绍大型语言模型推理新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Xin-Qiang Cai, Masashi Sugiyama ·

    VI-CuRL:通过置信度引导的方差缩减来稳定验证器无关的RL推理

    arXiv:2602.12579v2 Announce Type: replace-cross Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a dominant paradigm for enhancing Large Language Models (LLMs) reasoning, yet its reliance on external verifiers limits its scalability. Recent findings …