PulseAugur
实时 18:33:48
English(EN) A Two-Phase Stability Study of LLM Judges and Bar Council Examiners on Thai Bar-Exam Free-Form Essays

LLM在泰国律师考试研究中压倒性地复制了多数人类评分

一项关于泰国律师考试的新研究表明,虽然人类考官有时会因模糊的评分标准解释而在自由格式论文评分上产生分歧,但大型语言模型(LLM)在绝大多数情况下会与多数人类的解读保持一致。在测试的26个LLM中,没有一个在面对正确答案但缺少法定引文时会复制少数人类的评分观点。一个由三个LLM组成的锚定小组取得了高一致性得分(alpha=0.77),而人类小组的得分为(alpha=0.36),这凸显了LLM倾向于与主流人类解读保持一致,而不是探索其他有效的解读。 AI

影响 LLM裁判员显示出与多数人类解读保持一致的强烈倾向,这可能限制了它们在主观评估中捕捉细微差别或少数观点的效用。

排序理由 该集群包含一篇详细介绍LLM在特定领域表现的研究的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

LLM在泰国律师考试研究中压倒性地复制了多数人类评分

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Pawitsapak Akarajaradwong, Wuttikrai Lertprasertphakorn, Chompakorn Chaksangchaichot, Sarana Nutanong ·

    大型语言模型裁判与律师协会考官对泰国律师考试自由格式论文的双阶段稳定性研究

    arXiv:2605.25652v1 Announce Type: new Abstract: Free-form legal essay evaluation in NLP treats expert inter-rater stability as a single ceiling number, and treats LLM-judge agreement with that ceiling as evidence of judge stability. We test both assumptions on the Thai bar examin…

  2. arXiv cs.CL TIER_1 English(EN) · Sarana Nutanong ·

    大型语言模型裁判与律师协会考官对泰国律师考试自由格式论文的双阶段稳定性研究

    Free-form legal essay evaluation in NLP treats expert inter-rater stability as a single ceiling number, and treats LLM-judge agreement with that ceiling as evidence of judge stability. We test both assumptions on the Thai bar examination through an identical-inputs protocol: thre…