PulseAugur
实时 18:21:30
实体 Rasch model

Rasch model

PulseAugur coverage of Rasch model — every cluster mentioning Rasch model across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_104763 ·

    新的大型语言模型评估方法解决对齐和偏见问题

    研究人员正在开发新的方法来评估和改进大型语言模型(LLMs)的对齐性和可解释性。Google Research 提出了一个框架,该框架改编了心理学评估方法,以量化 LLM 的行为倾向并将其与人类共识进行比较。同时,一种名为 BINEVAL 的新方法将评估标准分解为二元问题,提供了比传统 LLM 裁判更具可解释性和可调试性的分数。其他研究则探讨了如何减轻 LLM 评估者中的自我偏好偏见,并通过考虑项目难度来改进置信度校准。