一篇新近发表在arXiv上的研究评估了大型语言模型(LLMs)在评估科学研究问题新颖性方面的可靠性。研究人员开发了一个名为RQ-Bench的基准,使用近期的arXiv论文将LLM生成的问句与作者锚定的参考问句进行比较。研究结果表明,LLMs持续高估了生成研究问题的新颖性,制造了一种与人类专家评估相悖的“新颖性幻觉”。LLMs在生成的问句中也倾向于忽略诸如狭窄性或来源绑定等关键维度,这引发了对其在科学评估中应用的担忧。 AI
影响 引发了对LLM在细致科学评估方面当前能力的担忧,可能减缓其在研究评估中的应用。
排序理由 该集群包含一篇详细介绍新基准和LLM能力评估的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →