English(EN) Learning Kernel-Based MDPs from Episodic Preferential Feedback

新理论使强化学习智能体能够从人类偏好中学习

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-22 14:00

研究人员开发了一个仅使用人类偏好反馈进行强化学习的理论框架。该方法应用于情节核马尔可夫决策过程（MDP），允许智能体通过比较轨迹并接收二元偏好标签来学习最优策略。该研究为次线性遗憾界提供了理论保证，表明在足够的情节下，学习到的策略值会收敛到最优策略值。 AI

影响这项理论工作通过使智能体能够有效地从比较性人类反馈中学习，从而推动了强化学习的发展，有可能改善对齐并减少对精确校准奖励函数的需求。

排序理由该集群包含一篇详细介绍机器学习方法论理论研究的学术论文。

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv stat.ML TIER_1 English(EN) · Nikola Pavlovic, Sattar Vakili, Qing Zhao · 2026-05-25 04:00

从片段偏好反馈中学习基于核的MDP

arXiv:2605.23650v1 Announce Type: new Abstract: Human feedback often arrives as preferences rather than calibrated numeric rewards, motivating reinforcement learning from preferential feedback, also referred to as reinforcement learning from human feedback (RLHF). We present a ri…
arXiv stat.ML TIER_1 English(EN) · Qing Zhao · 2026-05-22 14:00

从情节偏好反馈中学习基于核的MDP

Human feedback often arrives as preferences rather than calibrated numeric rewards, motivating reinforcement learning from preferential feedback, also referred to as reinforcement learning from human feedback (RLHF). We present a rigorous theoretical study of preference-only lear…
arXiv stat.ML TIER_1 English(EN) · Qing Zhao · 2026-05-22 14:00

从情节偏好反馈中学习基于核的MDP

Human feedback often arrives as preferences rather than calibrated numeric rewards, motivating reinforcement learning from preferential feedback, also referred to as reinforcement learning from human feedback (RLHF). We present a rigorous theoretical study of preference-only lear…