PulseAugur
实时 18:42:41
实体 GR-Ben

GR-Ben

PulseAugur coverage of GR-Ben — every cluster mentioning GR-Ben across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15917 ·

    新的GR-Ben基准评估AI的通用推理和错误检测能力

    研究人员推出了一款名为GR-Ben的新基准,旨在评估过程奖励模型(PRMs)在超越纯粹数学推理任务的更广泛推理任务中的错误检测能力。该基准涵盖科学和逻辑推理领域,旨在解决现有PRMs主要关注数学错误的问题。对22个模型的实验表明,当前的PRMs和大型语言模型(LLMs)在检测非数学领域的错误方面明显较弱,其中PRMs在基于知识的错误方面存在困难,而LLMs在计算错误方面存在困难。