实体 RM-Bench

RM-Bench

PulseAugur coverage of RM-Bench — every cluster mentioning RM-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_77334 · Jun 8 · 04:00

AdaJudge框架通过自适应池化改进LLM奖励建模

研究人员推出AdaJudge，一个旨在提高大型语言模型（LLM）奖励建模准确性的新颖框架。该方法通过自适应模型表示及其聚合方法，解决了当前静态池化策略的局限性。AdaJudge采用门控细化块来创建面向判别的表示，并使用自适应多视角池化模块进行动态证据组合。在RM-Bench和JudgeBench上的实验表明，AdaJudge的性能优于现有的奖励模型和池化基线。
TOOL · CL_79183 · Jun 6 · 09:55

新的SVR框架通过学习判别性评分标准来改进LLM评估

研究人员开发了一个名为支持向量评分标准（SVR）的新框架，以改进对大型语言模型输出的评估。SVR通过专注于区分排名接近的响应，而不是仅仅描述好的响应，来解决自生成评分标准的局限性。这种方法使用偏好数据来学习评分标准库和条件提示选择器，显著缩小了AI生成和人类定义的评估标准之间的差距。