实体 uncertainty-weighted optimization

uncertainty-weighted optimization

PulseAugur coverage of uncertainty-weighted optimization — every cluster mentioning uncertainty-weighted optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_79580 · Jun 8 · 06:15

新框架统一强化学习人类反馈中的奖励不确定性

研究人员引入了一个新框架来解决强化学习人类反馈（RLHF）中的奖励破解问题。所提出的方法利用分布奖励模型来量化不确定性，为诸如均值聚合和最坏情况优化等现有启发式方法提供了一种统一的方法。该框架旨在通过惩罚利用奖励模型错误策略来提高 RLHF 的鲁棒性。

新框架统一强化学习人类反馈中的奖励不确定性