English(EN) GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling

新的GeoMin方法提高了半监督RLVR中的数据效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员推出了一种名为GeoMin的新方法，旨在提高半监督可验证奖励强化学习（RLVR）的数据效率。该方法对来自标记数据的全局特征分布进行建模，以识别正确和错误模型输出之间的差异。通过为自奖励信号建立可靠的先验，GeoMin旨在更好地利用未标记数据，其性能优于现有基线，甚至在标记样本少得多的情况下也能超越完全监督模型。 AI

影响通过提高训练中的数据效率来增强LLM的推理能力，有可能降低标注成本。

排序理由该集群包含一篇详细介绍一种改进LLM推理的新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

RLVR

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Guangcheng Zhu, Shenzhi Yang, Haobo Wang, Xing Zheng, Yingfan MA, Xuening Feng, Zhongqi Chen, Kai Tang, Zhengqing Zang, Bowen Song, Weiqiang Wang, Gang Chen · 2026-06-04 04:00

GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling

arXiv:2606.04516v1 Announce Type: cross Abstract: Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from sev…

报道来源 [1]

GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling

相关实体

相关话题