实体 RQ-Bench

RQ-Bench

PulseAugur coverage of RQ-Bench — every cluster mentioning RQ-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_84343 · Jun 10 · 00:00

研究发现：大型语言模型在评估科学新颖性方面不可靠

一篇新近发表在arXiv上的研究评估了大型语言模型（LLMs）在评估科学研究问题新颖性方面的可靠性。研究人员开发了一个名为RQ-Bench的基准，使用近期的arXiv论文将LLM生成的问句与作者锚定的参考问句进行比较。研究结果表明，LLMs持续高估了生成研究问题的新颖性，制造了一种与人类专家评估相悖的“新颖性幻觉”。LLMs在生成的问句中也倾向于忽略诸如狭窄性或来源绑定等关键维度，这引发了对其在科学评估中应用的担忧。