研究人员推出了一种名为GeoMin的新方法,旨在提高半监督可验证奖励强化学习(RLVR)的数据效率。该方法对来自标记数据的全局特征分布进行建模,以识别正确和错误模型输出之间的差异。通过为自奖励信号建立可靠的先验,GeoMin旨在更好地利用未标记数据,其性能优于现有基线,甚至在标记样本少得多的情况下也能超越完全监督模型。 AI
影响 通过提高训练中的数据效率来增强LLM的推理能力,有可能降低标注成本。
排序理由 该集群包含一篇详细介绍一种改进LLM推理的新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →