PulseAugur
实时 16:02:40
实体 RQ-Bench

RQ-Bench

PulseAugur coverage of RQ-Bench — every cluster mentioning RQ-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_84343 ·

    研究发现:大型语言模型在评估科学新颖性方面不可靠

    一篇新近发表在arXiv上的研究评估了大型语言模型(LLMs)在评估科学研究问题新颖性方面的可靠性。研究人员开发了一个名为RQ-Bench的基准,使用近期的arXiv论文将LLM生成的问句与作者锚定的参考问句进行比较。研究结果表明,LLMs持续高估了生成研究问题的新颖性,制造了一种与人类专家评估相悖的“新颖性幻觉”。LLMs在生成的问句中也倾向于忽略诸如狭窄性或来源绑定等关键维度,这引发了对其在科学评估中应用的担忧。