实体 CiteVQA

CiteVQA

PulseAugur coverage of CiteVQA — every cluster mentioning CiteVQA across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

时间线

2026-05-13 research_milestone Introduction of the CiteVQA benchmark for evaluating evidence attribution in multimodal large language models. 来源

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_49038 · May 25 · 08:00

研究发现GPT-4等AI模型未能准确引用来源

CiteVQA的一项新研究表明，包括GPT-4在内的领先AI模型经常提供正确答案，但在可靠引用其来源方面存在困难。这种无法准确归因信息的能力引发了对AI生成内容的可靠性和可验证性的担忧。该研究突显了当前AI能力的一个关键差距，尤其是在需要事实准确性和来源透明度的应用中。
TOOL · CL_49036 · May 25 · 07:30

AI模型出现引文幻觉，新基准测试揭示

包括GPT和Gemini在内的领先AI模型经常提供正确答案，但引用不存在或不相关的证据。北京大学的研究人员将这种现象称为“引文幻觉”，它在法律和医学等关键领域构成了重大风险。为解决这一问题，开发了一个名为CiteVQA的新基准测试，以系统地评估和识别这些引文错误。
TOOL · CL_30596 · May 13 · 01:54

新基准CiteVQA揭示LLM中的“归因幻觉”

研究人员推出了CiteVQA，这是一个旨在评估多模态大语言模型（MLLM）将答案准确归因于文档内特定源区域能力的新基准。与仅对最终答案评分的先前评估不同，CiteVQA要求模型在答案旁边提供元素级边界框引用，联合评估两者。该基准包含711个PDF文件中的1897个问题，揭示了一个被称为“归因幻觉”的重大问题，即模型经常提供正确的答案但引用错误的证据，这凸显了当前文档智能系统中存在的关键可靠性差距。

研究发现GPT-4等AI模型未能准确引用来源

AI模型出现引文幻觉，新基准测试揭示

新基准CiteVQA揭示LLM中的“归因幻觉”