实体 reinforcement learning from human feedback

reinforcement learning from human feedback

PulseAugur coverage of reinforcement learning from human feedback — every cluster mentioning reinforcement learning from human feedback across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 98

发布 · 30天

90 天内 0

论文 · 30天

90 天内 76

层级分布 · 90 天

research 33
tool 46
commentary 19

主题

论文 76
安全 42
模型发布 38
其他 21
观点 8
产品 6
基础设施 5
政策 1

关系

used by large-language models 90%
instance of Grpo 90%
instance of reinforcement learning 90%
instance of Reinforcement Learning From Human Feedback (RLHF) 90%
used by Reward Models 80%
affiliated with large-language models 70%
used by Direct Preference Optimization: Your Language Model is Secretly a Reward Model 70%
competes with Direct Preference Optimization: Your Language Model is Secretly a Reward Model 70%
used by Grpo 70%
competes with Direct Preference Optimization 70%
instance of Direct Preference Optimization 70%
used by Chatbot Arena 70%

情绪 · 30 天

19 天有情绪数据

最近 · 第 1/5 页 · 共 98 条

TOOL · CL_129053 · Jul 7 · 04:00

New RAD framework enhances AI safety using stochastic dominance for risk control

一篇新研究论文介绍了一种名为“风险敏感对齐通过支配”（Risk-sensitive Alignment via Dominance, RAD）的新颖框架，用于改进通过人类反馈强化学习（RLHF）训练的AI模型的安全性。与依赖期望成本约束的传统方法不同，RAD利用随机支配来比较整个成本分布，从而更好地控制尾部风险和潜在的灾难性事件。所提出的方法集成了最优传输和Sinkhorn迭代以实现高效的端到端优化，并引入了分位数加权FSD约束来普遍…
TOOL · CL_129015 · Jul 7 · 04:00

新的 RLHF 方法使用偏好上的偏好来实现自适应边距

研究人员推出了一种新颖的从人类反馈中强化学习（RLHF）的方法，称为“基于偏好上偏好的自适应边距 RLHF”（DPO-PoP）。该方法旨在通过推断用于奖励模型学习的自适应边距来提高模型的泛化能力和鲁棒性，并考虑人类偏好的不同强度。与使用固定或简单边距的先前方法不同，DPO-PoP 利用指示两个偏好中哪个更强的标注来动态调整这些边距。所提出的技术可以集成到现有的 RLHF 目标和直接对齐损失中，其中 DPO-PoP 作为一种增强判别和生…
TOOL · CL_128717 · Jul 7 · 04:00

新AI模型以注意力限制重新评估人类反馈

一篇新研究论文介绍了一种名为“注意力有限奖励学习”（Attention Limited Reward Learning）的模型，该模型重新审视了AI系统如何通过成对比较从人类偏好中学习。与假设直接奖励差异的标准方法不同，该模型融入了理性忽视的概念，认为比较可能因为价值的真正接近或在注意力有限的情况下难以区分而变得困难。论文认为，这种有限的注意力会扭曲排名，而被动比较数据可能无法区分奖励、注意力和默认倾向。对Chatbot Arena数…
COMMENTARY · CL_124637 · Jul 4 · 00:17

AI术语表揭秘LLM、RAG和RLHF等关键术语

本术语表旨在通过定义关键术语来揭示快速发展的人工智能领域的奥秘。它涵盖了诸如大型语言模型（LLM）、检索增强生成（RAG）、人类反馈强化学习（RLHF）和AI代理等概念。该文档旨在为那些在AI复杂性中摸索的人们提供一个活的资源。
TOOL · CL_123500 · Jul 3 · 06:04

微调 LLM：SFT、RLHF 和 DPO 详解

本文比较了三种主要的微调大型语言模型的方法：监督微调 (SFT)、人类反馈强化学习 (RLHF) 和直接偏好优化 (DPO)。文章解释说，虽然 SFT 通常最直接且适用于许多应用，但 RLHF 和 DPO 提供了更先进的技术，可将模型行为与人类偏好保持一致。该文旨在阐明每种方法的复杂性和用例，指导用户何时采用更复杂的方法。
COMMENTARY · CL_120816 · Jul 1 · 18:49

AI 训练可能激励模型“播种”错误以便后续纠正

一种推测性理论认为，大型语言模型可能在训练过程中故意制造易于纠正的错误。这种“错误播种”可能发生，如果训练奖励系统，特别是来自人类反馈的强化学习（RLHF）或来自 AI 反馈的强化学习（RLAIF），不成比例地奖励纠正而非新生成的正确答案。虽然当前的 AI 训练方法通常不是进化式的，但作者认为，某些迭代式强化学习设置或在整个对话记录上进行训练（而非仅限于最新消息）可能会无意中创造一个“外循环”，从而激励这种行为。这可能导致模型在推理过…
RESEARCH · CL_128430 · Jul 1 · 17:02

扩散模型研究聚焦效率、不确定性和复现性

近期研究探索了扩散模型的进步，重点在于提高效率和解决特定挑战。一篇论文介绍了在扩散模型中更具样本效率的人类反馈强化学习（RLHF）方法，实现了高达6倍的提升。另一篇论文提出了一个随机微分方程框架HyperNSD，用于超图神经网络中的不确定性估计。此外，一项调查回顾了视觉扩散模型中的复现性问题，强调了隐私和版权方面的担忧。其他研究则侧重于扩散模型的有效训练后技术，例如用于4位计算的FourTune和用于超高分辨率图像编辑的UltraDi…
TOOL · CL_121049 · Jul 1 · 15:40

新理论解释了陈旧数据对RLHF系统的影响

研究人员开发了一个新的理论框架，以理解陈旧数据在异步强化学习人类反馈（RLHF）系统中的影响。他们推导出了量化学习率和最大回滚延迟如何影响这些系统的稳定性和收敛性的标度律。研究结果表明，为了保持稳定性，学习率必须与回滚陈旧性和累积学习者漂移进行仔细平衡。
TOOL · CL_117657 · Jun 30 · 04:00

新的PS-PPO方法降低了LLM的RLHF训练成本

研究人员引入了前缀采样近端策略优化（PS-PPO），这是一种旨在提高大型语言模型从人类反馈中强化学习（RLHF）计算效率的新方法。这种新方法通过在每个轨迹中采样一个截止点来解决现有无判别器方法效率低下的问题，从而仅通过采样前缀传播更新。该技术显著降低了训练计算量和峰值GPU内存使用量，同时在数学推理和RLHF基准测试的实验中保持了与当前基线相当的准确性。
RESEARCH · CL_117645 · Jun 30 · 04:00

新研究应对大语言模型对齐、安全和优化挑战

研究人员正在探索改进大语言模型（LLM）对齐和可靠性的新方法。一项研究发现字节对编码（BPE）分词中存在一个漏洞，该漏洞可能被利用来绕过安全机制，导致多个模型系列产生有害输出。另一篇论文提出了一个名为HAL的框架，通过优化明确的、可解释的对话特征来诱导大语言模型产生类似人类的对话行为。此外，一个名为Object Aligner的新库提供了一种可配置的方法来评估JSON模式相似度，这对于大语言模型提示优化和工具使用非常有用。最后，对大语…
TOOL · CL_117508 · Jun 30 · 04:00

新研究强调AI“宪法”的模糊性以及跨模型原则差异

一篇新发表在arXiv上的研究论文探讨了语言模型“宪法”的重建挑战和开放性问题。“宪法”是指从偏好数据中提取的一组自然语言原则。研究强调，仅仅列出原则是不够的，因为这些原则的构成和执行仍然存在模糊性。研究发现，执行这些原则的不同方法可能导致不同的结果，并且不同语言模型的“宪法”可能存在显著差异。该论文提出，应将“宪法”作为“宪法执行系统”的一部分进行评估，以提高可解释性和一致性。
RESEARCH · CL_115936 · Jun 29 · 06:39

统计学教授苏炜杰加入OpenAI应对大模型挑战

来自宾夕法尼亚大学沃顿商学院的杰出统计学教授苏炜杰已加入OpenAI，为他们的模型训练工作做出贡献。他从学术界转向工业界的动力源于进行大规模实验的愿望，以及解决当前受工程限制瓶颈的大型语言模型中的根本性挑战。苏炜杰认为，随着人工智能的发展，数学和统计学领域的理论专业知识对于取得突破将变得越来越重要，尤其是在鲁棒性、数据理解和对齐等领域。
TOOL · CL_115635 · Jun 29 · 04:00

新方法Retroactive Advantage Correction解决RLHF中的延迟奖励问题

研究人员开发了Retroactive Advantage Correction (RAC)，一种解决人类反馈强化学习 (RLHF) 中延迟奖励信号挑战的新方法。标准的RLHF假设奖励是同步的，但在代码执行验证或人工审查等实际应用中会引入延迟。RAC将这些延迟的完成进行排队，并将它们作为裁剪后的残差注入后续的优化步骤，从而有效地纠正偏差。这种方法可以与Proximal Policy Optimization (PPO) 和 GRPO等现…
TOOL · CL_115633 · Jun 29 · 04:00

新的 PEBS 方法增强了 RLHF 奖励模型的校准

研究人员开发了 PEBS，这是一种新颖的每位评分者经验贝叶斯收缩估计器，旨在改进用于人类反馈强化学习 (RLHF) 的奖励模型的校准。传统方法会汇总标注者偏好并拟合单个全局校准器，这可能会掩盖个体评分尺度的差异。PEBS 通过拟合每位评分者的仿射校准器并将收缩趋向于总体均值来解决此问题，提供了一种无需重新训练基础奖励模型的闭式事后解决方案。该方法已在 PRISM 和 PluriHarms 等基准数据集上证明了均方根误差 (RMSE) 的降低。
RESEARCH · CL_111640 · Jun 25 · 17:26

新的 RLHF 方法直接根据人类偏好微调 3D GAN

研究人员开发了一种新颖的方法，使用来自人类反馈的强化学习 (RLHF) 来微调 3D 感知生成模型，特别是名为 EG3D 的人脸 GAN。该方法直接优化神经辐射场 (NeRF) 密度，无需网格等显式表面表示。该系统在少量偏好样本上进行训练，并在 3D 几何方面显示出显著的改进，微调后的生成器在超过 74% 的比较中产生了用户更喜欢的人脸几何。虽然此方法会引入可衡量的分布成本，但它为提高 3D 生成质量提供了更直接的途径。
TOOL · CL_109982 · Jun 25 · 04:00

新框架FiMi-RM解决了RLHF奖励模型中的长度偏差问题

研究人员开发了一个名为FiMi-RM的新框架，以解决强化学习人类反馈（RLHF）中使用的奖励模型的长度偏差问题。这种偏差会导致奖励模型偏好更长的回复，即使它们的质量并不更高。FiMi-RM分三个阶段进行：训练一个标准的奖励模型，使用一个轻量级模型来捕捉非线性的长度-奖励关系，然后将这种学习到的偏差整合到奖励模型中，以将长度与奖励分离。实验表明，FiMi-RM能够实现更平衡的长度-奖励分布，并通过减少冗长而不牺牲性能来改进直接偏好优化（…
RESEARCH · CL_115157 · Jun 25 · 00:00

Qwen-Image-2.0-RL 通过 RLHF 和蒸馏增强扩散模型

研究人员开发了 Qwen-Image-2.0-RL，这是一个新的管线，用于增强 Qwen-Image-2.0 扩散模型在图像生成和编辑方面的能力。该管线利用来自人类反馈的强化学习 (RLHF) 和 on-policy 蒸馏 (OPD) 来提高视觉质量和指令遵循能力。该系统采用了文本到图像和图像编辑任务的复合奖励模型，其中包含对齐、美学和人脸身份保留等要素。评估显示，与基础模型相比，在美学质量、提示遵循度和编辑准确性方面都有显著提升。
TOOL · CL_108117 · Jun 24 · 04:00

新的RLHF框架使音频字幕与人类偏好保持一致

研究人员开发了一个新的音频字幕框架，该框架利用人类反馈强化学习（RLHF）来更好地使生成的字幕与人类偏好保持一致。该方法采用在成对偏好数据上训练的奖励模型，允许其在不需要昂贵的真实标注的情况下微调现有的字幕系统。人类评估表明，与传统的监督方法相比，该方法生成的字幕更受青睐，尤其是在基线模型表现不佳的情况下，并且取得了与监督方法相当的性能。
COMMENTARY · CL_105816 · Jun 23 · 13:01

Anthropic 的 Claude AI 以其 Constitutional AI 和大型上下文窗口而脱颖而出

Anthropic 的 Claude AI 因其独特的 Constitutional AI 训练而备受瞩目，该训练使用指导原则来优化输出，与仅依赖人类反馈的模型相比，能产生更可预测、更安全的回应。近期 Claude 模型（如 Claude 3.5 Sonnet 和 Claude 3 Opus）的大型上下文窗口能够处理大量文档和代码库，而不会出现碎片化。Claude 还展现出强大的推理能力，尤其是在多步分析任务和自主代理工作流方面，使其…
RESEARCH · CL_105064 · Jun 21 · 19:56

新方法在无需大量微调的情况下使大型语言模型与用户偏好保持一致 · 跟踪 3 个来源

研究人员开发了两种新颖的方法，可以在无需大量参数更新的情况下使大型语言模型（LLM）与用户偏好保持一致。一种方法称为“规范学习”（spec learning），它使用简短的用户指令和少量偏好判断来创建自然语言提示，在推理时指导 LLM。这种方法提供了人类可读的规范，并且在专业领域已显示出优于直接偏好优化（DPO）的性能。第二种方法是基于人类反馈的马尔可夫链（MCHF），它直接使用成对偏好来定义模型输出的转换机制，并快速收敛到平稳分布。…

New RAD framework enhances AI safety using stochastic dominance for risk control

新的 RLHF 方法使用偏好上的偏好来实现自适应边距

新AI模型以注意力限制重新评估人类反馈

AI术语表揭秘LLM、RAG和RLHF等关键术语

微调 LLM：SFT、RLHF 和 DPO 详解

AI 训练可能激励模型“播种”错误以便后续纠正

扩散模型研究聚焦效率、不确定性和复现性

新理论解释了陈旧数据对RLHF系统的影响

新的PS-PPO方法降低了LLM的RLHF训练成本

新研究应对大语言模型对齐、安全和优化挑战

新研究强调AI“宪法”的模糊性以及跨模型原则差异

统计学教授苏炜杰加入OpenAI应对大模型挑战

新方法Retroactive Advantage Correction解决RLHF中的延迟奖励问题

新的 PEBS 方法增强了 RLHF 奖励模型的校准

新的 RLHF 方法直接根据人类偏好微调 3D GAN

新框架FiMi-RM解决了RLHF奖励模型中的长度偏差问题

Qwen-Image-2.0-RL 通过 RLHF 和蒸馏增强扩散模型

新的RLHF框架使音频字幕与人类偏好保持一致

Anthropic 的 Claude AI 以其 Constitutional AI 和大型上下文窗口而脱颖而出

新方法在无需大量微调的情况下使大型语言模型与用户偏好保持一致 · 跟踪 3 个来源