实体 ExpertQA

ExpertQA

PulseAugur coverage of ExpertQA — every cluster mentioning ExpertQA across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_167553 · Jul 28 · 04:00

新的CAGE框架提高了AI在长篇问答中的引文准确性

研究人员推出了一种名为CAGE的新型两阶段框架，旨在提高长篇问答系统中内联引文的准确性和忠实度。该方法通过首先构建一个认知归因图来解决归因歧义的挑战，该图将语义答案单元明确地链接到支持文档。随后，一个结构化的引文推理模型生成与该图对齐的、带有引文的句子级声明。在ASQA、ELI5和ExpertQA等基准数据集上的实验表明，CAGE在生成可验证且有充分依据的答案方面取得了最先进的性能。
TOOL · CL_81609 · Jun 9 · 20:03

ExpertQA基准测试揭示大型语言模型（LLM）引用不可靠

一个名为ExpertQA的新基准测试，于2024年开发，通过让484位专家在其专业领域提出问题来评估大型语言模型（LLM）。这些专家随后仔细评分LLM生成的答案，评估每个声明的支撑和可靠性。该基准测试显示，即使是写得很好的答案也常常包含未经证实的声明，而在医学领域，专家认为大约一半的引用来源不可靠。
RESEARCH · CL_76805 · Jun 5 · 10:42

新框架FullCite增强AI引用生成

研究人员开发了一个名为FullCite的新框架，以改进AI系统生成内联引用的方式。该框架旨在将每个生成的声明链接到其特定的源文档以及该文档中的确切支持证据。虽然目前的大型语言模型擅长查找相关文档，但它们在精确定位证据片段方面存在困难，这表明需要在此领域进行进一步研究，以确保AI生成内容中的忠实归属。