实体 Rasch model

Rasch model

PulseAugur coverage of Rasch model — every cluster mentioning Rasch model across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_104763 · Apr 3 · 08:00

新的大型语言模型评估方法解决对齐和偏见问题

研究人员正在开发新的方法来评估和改进大型语言模型（LLMs）的对齐性和可解释性。Google Research 提出了一个框架，该框架改编了心理学评估方法，以量化 LLM 的行为倾向并将其与人类共识进行比较。同时，一种名为 BINEVAL 的新方法将评估标准分解为二元问题，提供了比传统 LLM 裁判更具可解释性和可调试性的分数。其他研究则探讨了如何减轻 LLM 评估者中的自我偏好偏见，并通过考虑项目难度来改进置信度校准。