PulseAugur
实时 11:38:25
实体 Eval-Skill

Eval-Skill

PulseAugur coverage of Eval-Skill — every cluster mentioning Eval-Skill across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_76810 ·

    Eval-Skill 方法通过可重用技能提升 LLM 奖励建模

    研究人员开发了一种名为 Eval-Skill 的新方法,用于改进大型语言模型的奖励建模。该方法合成可重用的评估技能,然后将其注入模型的上下文,而不是依赖于每个查询的评分标准。Eval-Skill 在 RewardBench 2 等基准测试中表现出显著的性能提升,在 Qwen3-8B 和 DeepSeek-V4-Flash 等模型的标准评判方法上表现更优。