PulseAugur
实时 15:37:42

LLM judges outperform traditional metrics in extractive QA evaluations

研究人员评估了使用大型语言模型(LLM)作为抽取式问答任务的 judge 的有效性。他们的研究发现,LLM-as-a-judge 方法与人类评估的相关性远高于精确匹配和 F1 分数等传统指标,与开源模型的相关性高达 0.85。LLM judge 在数值答案方面表现良好,但在处理职位名称等复杂类型时遇到困难,并且值得注意的是,即使是同一个模型回答和 judge,也没有观察到自我偏好偏差。提示措辞影响很小,零样本、无上下文的 judge 被证明是最有效的。 AI

影响 这项研究提供了一种更可靠的评估 QA 模型的方法,有望改进未来的模型开发和基准测试。

排序理由 该集群包含一篇详细介绍 NLP 任务新评估方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Xanh Ho, Jiahao Huang, Florian Boudin, Akiko Aizawa ·

    大规模抽取式问答数据集的再评估:LLM作为裁判和深入分析

    arXiv:2504.11972v3 Announce Type: replace Abstract: Extractive QA tasks are commonly evaluated using Exact Match (EM) and F1-score, but these metrics often fail to reflect true model performance. Recent studies have proposed using large language models (LLMs) as judges (LLM-as-a-…