实体
RewardBench
RewardBench
PulseAugur coverage of RewardBench — every cluster mentioning RewardBench across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
EvoPref算法通过进化优化增强语言模型对齐
研究人员开发了EvoPref,这是一种新颖的多目标进化算法,旨在改进大型语言模型(LLM)的对齐。与可能导致偏好崩溃和狭窄行为模式的传统基于梯度的方法不同,EvoPref维护了针对有用性、无害性和诚实性进行优化的适配器多样化种群。这种方法显著增强了偏好覆盖范围并降低了崩溃率,同时实现了具有竞争力的对齐质量,确立了进化优化作为多样化LLM对齐的可行范式。
-
研究人员开发新方法来消除大型语言模型(LLM)奖励模型的偏差并改进其性能
研究人员开发了新的方法来提高用于对齐大型语言模型(LLM)的奖励模型(RM)的可靠性和可解释性。一种方法引入了因果驱动的干预技术,以在推理时减轻 RM 中的各种偏差,显示出对虚假特征的敏感性降低,而没有性能权衡。另一项开发是“reward-lens”库,它将机制可解释性工具应用于 RM,揭示线性归因并不总是能预测因果打补丁的效果。此外,一种称为时间连贯奖励建模(TCRM)的新方法将 RM 视为价值函数,从而能够进行可解释的 token…