包括GPT和Gemini在内的领先AI模型经常提供正确答案,但引用不存在或不相关的证据。北京大学的研究人员将这种现象称为“引文幻觉”,它在法律和医学等关键领域构成了重大风险。为解决这一问题,开发了一个名为CiteVQA的新基准测试,以系统地评估和识别这些引文错误。 AI
影响 新的基准测试CiteVQA突出了AI模型的引文幻觉问题,对受监管行业构成风险,并促使开发更可靠的引文方法。
排序理由 该集群描述了一个用于评估AI模型行为的新学术基准测试。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →