研究人员推出了ASTRA-QA,一个旨在评估文档抽象问答能力的新基准。该基准通过提供明确的评估注释,包括答案主题集和精选的不支持主题,来解决现有方法的局限性,从而实现更稳健的评分。ASTRA-QA旨在评估模型综合信息和避免生成不支持内容的能力,并提供覆盖率和幻觉的诊断。 AI
影响 为抽象问答提供了一个新的评估标准,有可能提高模型从文档中综合复杂信息的能力。
排序理由 该集群包含一篇介绍评估人工智能能力基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →