PulseAugur
实时 12:47:54
实体 ExpertQA

ExpertQA

PulseAugur coverage of ExpertQA — every cluster mentioning ExpertQA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_81609 ·

    ExpertQA基准测试揭示大型语言模型(LLM)引用不可靠

    一个名为ExpertQA的新基准测试,于2024年开发,通过让484位专家在其专业领域提出问题来评估大型语言模型(LLM)。这些专家随后仔细评分LLM生成的答案,评估每个声明的支撑和可靠性。该基准测试显示,即使是写得很好的答案也常常包含未经证实的声明,而在医学领域,专家认为大约一半的引用来源不可靠。

  2. RESEARCH · CL_76805 ·

    新框架FullCite增强AI引用生成

    研究人员开发了一个名为FullCite的新框架,以改进AI系统生成内联引用的方式。该框架旨在将每个生成的声明链接到其特定的源文档以及该文档中的确切支持证据。虽然目前的大型语言模型擅长查找相关文档,但它们在精确定位证据片段方面存在困难,这表明需要在此领域进行进一步研究,以确保AI生成内容中的忠实归属。