PulseAugur
实时 17:04:16
实体 Thai bar examination

Thai bar examination

PulseAugur coverage of Thai bar examination — every cluster mentioning Thai bar examination across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_51276 ·

    LLM在泰国律师考试研究中压倒性地复制了多数人类评分

    一项关于泰国律师考试的新研究表明,虽然人类考官有时会因模糊的评分标准解释而在自由格式论文评分上产生分歧,但大型语言模型(LLM)在绝大多数情况下会与多数人类的解读保持一致。在测试的26个LLM中,没有一个在面对正确答案但缺少法定引文时会复制少数人类的评分观点。一个由三个LLM组成的锚定小组取得了高一致性得分(alpha=0.77),而人类小组的得分为(alpha=0.36),这凸显了LLM倾向于与主流人类解读保持一致,而不是探索其他有效的解读。