实体
Grm
Grm
PulseAugur coverage of Grm — every cluster mentioning Grm across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的生成式响应模型增强广告自动竞价
研究人员开发了一种名为生成式响应模型(GRM)的新方法,用于广告中的自动竞价系统。该模型根据历史数据和竞价乘数预测未来的流量量和成本/价值曲线。与将约束集成到奖励信号中的先前方法不同,GRM直接对响应进行建模,这被证明可以提高约束稳定性和在AuctionNet数据集上的整体性能。
-
基于自然语言人类反馈的奖励建模
研究人员引入了一种名为“基于自然语言人类反馈的奖励建模”(RM-NLHF)的新方法,以改进生成奖励模型(GRMs)的训练。使用成对偏好数据的传统方法可能导致GRMs在没有真正理解的情况下猜测正确结果,从而在训练信号中引入噪声。RM-NLHF通过使用人类的自然语言批评来提供更准确的过程奖励信号来解决这个问题,然后用这些信号来训练GRMs。该方法还包括一个元奖励模型(MetaRM),用于从有限的人类批评泛化到更大的数据集。