一个名为 AuthorityBench 的新基准,包含来自常识、科学、法律和医学的 220,564 个提示,旨在研究引用是否存在会如何影响大型语言模型的行为。研究发现,与没有引用的提示相比,即使是伪造的引用,其存在也会持续增加幻觉的发生率。当虚假引用伴随真实说法时,这种效应最为明显,尤其是在常识领域,幻觉发生率会显著升高。 AI
影响 这项研究揭示了大型语言模型的一个关键漏洞,表明可能需要对增强引用的系统进行重大重新评估,以减轻幻觉发生率的增加。
排序理由 该集群描述了一篇介绍用于评估大型语言模型行为基准的新学术论文。
- Aravind Ramana Ramanathan Narayanan
- arXiv
- AuthorityBench
- Large Language Models
- github.com/floating-reeds/AuthorityBench
- law
- medicine
- science
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →