研究人员推出QUBRIC,一个旨在通过联合设计查询和评分标准来改进强化学习(RL)的新框架。该方法解决了评分标准质量受限于固定查询结构的瓶颈。QUBRIC将开放式查询重写为可评估的问题,并根据教师策略差距生成评分标准,保留信息丰富的配对用于训练。该框架在ArenaHard基准测试上展示了5.5个点的提升,并在法律、道德和叙事推理任务上显示出显著改进。 AI
影响 增强了强化学习在超越可验证奖励的复杂推理任务中的能力。
排序理由 该集群包含一篇详细介绍新研究框架及其基准测试结果的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →