实体 Reinforcement Learning From Human Feedback (RLHF)

Reinforcement Learning From Human Feedback (RLHF)

PulseAugur coverage of Reinforcement Learning From Human Feedback (RLHF) — every cluster mentioning Reinforcement Learning From Human Feedback (RLHF) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 7

发布 · 30天

90 天内 0

论文 · 30天

90 天内 6

层级分布 · 90 天

research 5
tool 1
meme 1

主题

论文 6
安全 3
模型发布 3
其他 1

最近 · 第 1/1 页 · 共 7 条

RESEARCH · CL_86663 · Jun 11 · 11:19

AI奖励模型显示出有用性与无害性之间的张力

一篇新的研究论文探讨了AI奖励模型中“有用性”与“无害性”之间的张力，这是从人类反馈中强化学习（RLHF）的一个关键组成部分。研究发现，在混合目标上训练的模型通常表现不如在单一目标上训练的模型，这表明目标之间存在干扰。通过识别和消融特定的神经元，研究人员观察到这些神经元在因果上支持一个目标，同时对另一个目标产生负面影响，共享神经元在这种对齐张力中起着重要作用。这些发现为理解多目标对齐为何具有挑战性提供了机制性见解，并为开发更分离和可控…
RESEARCH · CL_82101 · Jun 9 · 07:57

新方法利用奖励模型状态以获得更好的AI反馈

研究人员开发了一种名为表征感知优势估计（GraphAE）的新方法，该方法增强了来自人类反馈的强化学习（RLHF）。该技术利用奖励模型隐藏状态中编码的更丰富信息，而不是仅仅使用标量奖励，来改进优势估计。通过将响应组视为图并使用图传播，GraphAE 整合了来自相似响应的上下文信息，从而实现了更具样本效率和鲁棒性的 RLHF。
TOOL · CL_79751 · Jun 9 · 04:00

新的RePO框架通过遗憾最小化增强大语言模型训练

研究人员引入了一个名为基于遗憾的偏好优化（RePO）的新框架，用于利用人类反馈训练大语言模型。RePO将过程从奖励最大化重新构建为遗憾最小化，基于预期结果和反事实比较来模拟人类偏好。在数学推理和人类偏好数据集上的实验表明，RePO提供了改进的性能和更好的人类对齐。
RESEARCH · CL_46766 · May 24 · 07:15

新的人工智能对齐方法模仿人类认知过程

一篇新研究论文提出了一种创建更忠实于人类认知过程的人工智能决策模型的方法。该方法旨在通过整合启发式方法和结构化思维模式来改进人工智能对齐，超越标准的偏好获取。研究人员在一个肾脏分配任务中展示了他们模型的有效性，表明该模型在预测人类决策方面可以媲美甚至超越现有模型的准确性。
RESEARCH · CL_48581 · May 22 · 14:00

新理论使强化学习智能体能够从人类偏好中学习

研究人员开发了一个仅使用人类偏好反馈进行强化学习的理论框架。该方法应用于情节核马尔可夫决策过程（MDP），允许智能体通过比较轨迹并接收二元偏好标签来学习最优策略。该研究为次线性遗憾界提供了理论保证，表明在足够的情节下，学习到的策略值会收敛到最优策略值。
RESEARCH · CL_29313 · May 12 · 09:46

新框架改进了用于多样化人类偏好的奖励建模

研究人员开发了一个名为 Anchor-guided Variance-aware Reward Modeling 的新框架，以解决标准奖励模型在处理多样化人类偏好时存在的局限性。该方法通过引入两个响应级别的锚点标签来增强现有的高斯奖励模型，解决了根本性的不可识别性问题。该框架在模拟和真实世界数据集的奖励建模以及下游的强化学习（RLHF）任务中都展示了改进的性能。
MEME · CL_25269 · May 10 · 17:59

体育领域AI词汇表新增RLHF术语

一个新术语“基于人类反馈的强化学习 (RLHF)”已被添加到专注于体育领域人工智能的词汇表中。此举旨在扩大该资源对与体育行业相关的人工智能概念的覆盖范围。

AI奖励模型显示出有用性与无害性之间的张力

新方法利用奖励模型状态以获得更好的AI反馈

新的RePO框架通过遗憾最小化增强大语言模型训练

新的人工智能对齐方法模仿人类认知过程

新理论使强化学习智能体能够从人类偏好中学习

新框架改进了用于多样化人类偏好的奖励建模

体育领域AI词汇表新增RLHF术语