实体 GR-Ben

GR-Ben

PulseAugur coverage of GR-Ben — every cluster mentioning GR-Ben across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_15917 · May 5 · 04:00

新的GR-Ben基准评估AI的通用推理和错误检测能力

研究人员推出了一款名为GR-Ben的新基准，旨在评估过程奖励模型（PRMs）在超越纯粹数学推理任务的更广泛推理任务中的错误检测能力。该基准涵盖科学和逻辑推理领域，旨在解决现有PRMs主要关注数学错误的问题。对22个模型的实验表明，当前的PRMs和大型语言模型（LLMs）在检测非数学领域的错误方面明显较弱，其中PRMs在基于知识的错误方面存在困难，而LLMs在计算错误方面存在困难。