来自浙江大学、小红书和北京大学的研究人员开发了SelectiveRM,一个用于训练大型语言模型中奖励模型的新颖框架。该方法解决了人类和AI生成反馈中常见的嘈杂或不准确的偏好数据问题。SelectiveRM不强迫模型拟合所有观察到的偏好,而是使用部分最优传输来选择性地对齐分布,识别并排除冲突或错误的数据点。这导致在下游人类反馈强化学习(RLHF)过程中,奖励函数更可靠,安全性得到提高。 AI
影响 这项研究为训练奖励模型提供了一种更符合原则的方法,通过过滤掉错误的反馈,有可能带来更安全、更可靠的AI系统。
排序理由 该集群描述了一篇关于在LLM中训练奖励模型的新颖框架的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- GRPO
- HarmBench
- Optimal Transport
- Peking University
- Qwen2.5
- RLHF
- SelectiveRM
- Xiaohongshu
- Zhejiang University
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →