LLM judges outperform traditional metrics in extractive QA evaluations

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员评估了使用大型语言模型（LLM）作为抽取式问答任务的 judge 的有效性。他们的研究发现，LLM-as-a-judge 方法与人类评估的相关性远高于精确匹配和 F1 分数等传统指标，与开源模型的相关性高达 0.85。LLM judge 在数值答案方面表现良好，但在处理职位名称等复杂类型时遇到困难，并且值得注意的是，即使是同一个模型回答和 judge，也没有观察到自我偏好偏差。提示措辞影响很小，零样本、无上下文的 judge 被证明是最有效的。 AI

影响这项研究提供了一种更可靠的评估 QA 模型的方法，有望改进未来的模型开发和基准测试。

排序理由该集群包含一篇详细介绍 NLP 任务新评估方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xanh Ho, Jiahao Huang, Florian Boudin, Akiko Aizawa · 2026-06-01 04:00

大规模抽取式问答数据集的再评估：LLM作为裁判和深入分析

arXiv:2504.11972v3 Announce Type: replace Abstract: Extractive QA tasks are commonly evaluated using Exact Match (EM) and F1-score, but these metrics often fail to reflect true model performance. Recent studies have proposed using large language models (LLMs) as judges (LLM-as-a-…

报道来源 [1]

大规模抽取式问答数据集的再评估：LLM作为裁判和深入分析

相关实体

相关话题