PulseAugur
实时 10:35:19
实体 VI-CuRL

VI-CuRL

PulseAugur coverage of VI-CuRL — every cluster mentioning VI-CuRL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-25 research_milestone Publication of a research paper introducing the VI-CuRL framework for stabilizing LLM reasoning. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_48817 ·

    新的VI-CuRL框架在无外部验证器的情况下稳定大型语言模型推理

    研究人员开发了VI-CuRL,一个旨在稳定大型语言模型强化学习的新框架,无需依赖外部验证器。该方法利用模型内部的置信度来指导训练,有效减少方差并防止常见的训练崩溃。VI-CuRL在各种推理基准测试中已显示出比现有方法更高的稳定性和性能。