实体 Reward Models

Reward Models

PulseAugur coverage of Reward Models — every cluster mentioning Reward Models across labs, papers, and developer communities, ranked by signal.

总计 · 30天

8

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

8

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

RESEARCH · CL_111634 · Jun 25 · 17:59

新的自引导方法提高了AI图像生成的多样性

研究人员开发了一种新的无需训练的方法，称为特征自引导，以解决用于图像生成的预训练流模型中的多样性崩溃问题。该技术在批量生成过程中分散内部特征，并使用流形正则化使其与数据流形保持一致，从而在不牺牲质量的情况下确保输出的多样性。这种即插即用模块的推理成本很小，并且在文本到图像和深度到图像生成等各种条件流模型的多样性方面显示出显著的改进。
TOOL · CL_111518 · Jun 19 · 00:00

Hugging Face论文解决强化学习中奖励模型的过度敏感问题

Hugging Face的一篇新论文介绍了一种方法来解决强化学习中使用的奖励模型的过度敏感问题。这些模型在对齐语言模型方面至关重要，但可能给相同的响应分配不同的分数，从而阻碍有效的策略学习。该研究提出根据“区分能力”和“特异性”（过度敏感的倒数）来评估奖励模型，并提供了一种使用蒙特卡洛 dropout 的无训练算法来离散化奖励，从而改进策略学习并减少奖励攻击。
RESEARCH · CL_86663 · Jun 11 · 11:19

AI奖励模型显示出有用性与无害性之间的张力

一篇新的研究论文探讨了AI奖励模型中“有用性”与“无害性”之间的张力，这是从人类反馈中强化学习（RLHF）的一个关键组成部分。研究发现，在混合目标上训练的模型通常表现不如在单一目标上训练的模型，这表明目标之间存在干扰。通过识别和消融特定的神经元，研究人员观察到这些神经元在因果上支持一个目标，同时对另一个目标产生负面影响，共享神经元在这种对齐张力中起着重要作用。这些发现为理解多目标对齐为何具有挑战性提供了机制性见解，并为开发更分离和可控…
RESEARCH · CL_79582 · Jun 8 · 05:24

新的DynaCF框架解决了AI奖励模型中的捷径学习问题

研究人员推出了一种新颖的DynaCF框架，旨在解决AI训练中使用的奖励模型中的捷径学习问题。该方法通过评估训练样本对反事实扰动的敏感性来动态地重新加权样本，从而降低那些依赖于表面模式的样本的权重。通过鼓励奖励模型关注真实的响应质量而非虚假关联，DynaCF旨在提高AI系统中偏好建模的鲁棒性和可靠性。
RESEARCH · CL_76835 · Jun 4 · 18:04

新研究强调大语言模型个性化在人类数据方面存在差距

一篇新论文通过比较合成数据评估与真实人类对话，探讨了大语言模型（LLM）个性化的有效性。研究发现，大语言模型难以准确地从人类互动中提取用户属性，并且生成的个性化回复常常不被人类认为优于通用回复。研究人员引入了干预措施来改进个性化评估的早期阶段，但指出学习到的奖励模型与人类判断的相关性仍然适中，这表明在模拟与人类一致的个性化方面存在挑战。
TOOL · CL_99536 · Jun 4 · 00:00

Hugging Face 论文发现 LLM 在以人为中心的个性化方面表现不佳

Hugging Face 的一篇新论文强调了大型语言模型 (LLM) 在使用合成数据与真实人类互动进行个性化方面的显著差距。研究发现，LLM 在准确提取用户属性、将相关属性匹配到新提示以及生成人类认为真正有帮助的个性化响应方面存在困难。人类评估显示，LLM 经常过度个性化，并且自动奖励模型与人类质量判断仅有适度相关性，这凸显了在 LLM 个性化中重新关注人类数据的必要性。
RESEARCH · CL_65748 · Jun 2 · 04:00

新方法应对 AI 训练中的奖励欺骗问题

研究人员正在开发新方法来对抗人类反馈强化学习 (RLHF) 系统中的奖励欺骗问题。几篇论文介绍了检测和缓解模型利用奖励模型偏差导致次优或不安全结果的场景的技术。这些方法包括监控评估分数的调度原语、用于分析欺骗行为的可控环境，以及旨在提高鲁棒性和可解释性的新型奖励建模框架。
RESEARCH · CL_15878 · May 3 · 11:45

新研究探索用于大型语言模型和扩散模型的先进奖励建模

几篇新研究论文探讨了用于人工智能对齐的奖励建模的进展，特别是针对大型语言模型和扩散模型。其中一篇论文介绍了SelectiveRM，一个使用最优传输来处理奖励建模中嘈杂的人类偏好的框架。另一篇论文CAMEL提出了一种置信门控反射方法，选择性地对低置信度实例调用反射，以更少的参数实现了最先进的准确性。此外，还开发了一个名为RMGAP的新基准来评估奖励模型在不同用户偏好上的泛化能力，揭示了当前模型的重大局限性。最后，ArenaPO利用Are…