实体 Episodic Kernel MDPs

Episodic Kernel MDPs

PulseAugur coverage of Episodic Kernel MDPs — every cluster mentioning Episodic Kernel MDPs across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_48581 · May 22 · 14:00

新理论使强化学习智能体能够从人类偏好中学习

研究人员开发了一个仅使用人类偏好反馈进行强化学习的理论框架。该方法应用于情节核马尔可夫决策过程（MDP），允许智能体通过比较轨迹并接收二元偏好标签来学习最优策略。该研究为次线性遗憾界提供了理论保证，表明在足够的情节下，学习到的策略值会收敛到最优策略值。

新理论使强化学习智能体能够从人类偏好中学习