实体
Reward Model Nursery and Primary School
Reward Model Nursery and Primary School
PulseAugur coverage of Reward Model Nursery and Primary School — every cluster mentioning Reward Model Nursery and Primary School across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新协议标志着LLM尾部感知评估指标的脆弱性
一篇新发表在arXiv上的研究论文提出了一个协议,用于评估大型语言模型(LLM)评估中尾部感知指标的可靠性。该协议旨在诊断条件在险价值和尾部指数估计等指标中的假阳性,这些指标用于理解奖励模型的极端错误。当应用于LLM毒性评估时,该协议识别出三种不同的假阳性模式,导致两个不同的评分器家族的头条尾部形状声明被拒绝。
-
研究人员开发新方法来消除大型语言模型(LLM)奖励模型的偏差并改进其性能
研究人员开发了新的方法来提高用于对齐大型语言模型(LLM)的奖励模型(RM)的可靠性和可解释性。一种方法引入了因果驱动的干预技术,以在推理时减轻 RM 中的各种偏差,显示出对虚假特征的敏感性降低,而没有性能权衡。另一项开发是“reward-lens”库,它将机制可解释性工具应用于 RM,揭示线性归因并不总是能预测因果打补丁的效果。此外,一种称为时间连贯奖励建模(TCRM)的新方法将 RM 视为价值函数,从而能够进行可解释的 token…