English(EN) Learnable Assessment Skills for LLM-based Automated Scoring: Rubric Construction via Iterative Optimization

AI研究探索LLM裁判的自动评分标准生成

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-29 04:00

两篇新研究论文探讨了为充当裁判的大型语言模型（LLM）自动生成和优化评估评分标准的方法。第一篇论文提出了一种无需训练的方法来创建特定数据集和特定实例的评分标准，取得了与现有方法相当的性能，并通过元裁判奖励信号进一步提升了性能。第二篇论文介绍了一个框架，用于学习LLM的“评估技能”，专注于在没有专家编写的评分标准的情况下构建评分标准，并证明这些学习到的技能在各种任务上可以优于专家提供的评分标准。 AI

影响这些方法可以显著减少评估LLM输出所需的人力，从而可能加速LLM的开发和部署。

排序理由两篇学术论文发表在arXiv上，详细介绍了LLM评估的新颖方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Zijie Wang, Eduardo Blanco · 2026-06-01 04:00

为 LLM-as-a-Judge 生成和优化动态评估标准

arXiv:2605.30568v1 Announce Type: new Abstract: LLM-as-a-Judge is a scalable alternative to human evaluation, yet existing rubric-based methods rely on human-annotated data such as reference answers or expert-crafted rubrics. We propose to automatically generate fine-grained eval…
arXiv cs.CL TIER_1 English(EN) · Yun Wang, Xin Xia, Xuansheng Wu, Xiaoming Zhai, Ninghao Liu · 2026-05-29 04:00

用于LLM驱动的自动评分的可学习评估技能：通过迭代优化进行评分标准构建

arXiv:2605.29274v1 Announce Type: new Abstract: LLM-based automated scoring approaches near-human performance, but scaling to new tasks remains bottlenecked by the per-item human configuration of upstream stages such as rubric construction. Human experts bypass this bottleneck th…

报道来源 [2]

为 LLM-as-a-Judge 生成和优化动态评估标准

用于LLM驱动的自动评分的可学习评估技能：通过迭代优化进行评分标准构建

相关实体

相关话题