一个名为GIScholarBench的新基准已被开发出来,用于评估地理信息科学(GIS)研究中大语言模型的过度自信。该基准包含10,865篇论文,测试模型在元数据检索、文献关联和研究方向生成方面的能力。对Claude Sonnet 4.5、Gemini 3和ChatGPT 5.3的评估显示,所有任务中都存在持续的过度自信,表现为事实过度生成、不可靠的引用扩展以及对输出完整性的过度自信。 AI
影响 突出了大语言模型在学术研究中的一个关键局限性,需要改进校准以确保在学术任务中的可靠使用。
排序理由 该集群包含一篇介绍大语言模型性能新基准的学术论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →