来自浙江大学、小红书和北京大学的研究人员开发了 SelectiveRM,一个用于训练大型语言模型奖励模型的新颖框架。该方法通过使用最优传输来选择性地对齐分布,解决了人类和 AI 生成反馈中常见的嘈杂偏好数据的问题。SelectiveRM 识别并丢弃冲突的嘈杂偏好,使模型能够学习更可靠的奖励函数,并提高下游人类反馈强化学习 (RLHF) 的安全性。 AI
影响 通过使奖励模型能够更好地处理嘈杂的人类反馈,提高了 LLM 的安全性和可靠性。
排序理由 该集群描述了一篇在 ICML 2026 上发表的新研究论文和框架 (SelectiveRM),详细介绍了一种训练 LLM 奖励模型的新颖方法。
- GRPO
- HarmBench
- Optimal Transport
- Peking University
- Qwen2.5
- RLHF
- SelectiveRM
- Xiaohongshu
- Zhejiang University
- LLM-as-a-Judge
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →