实体
IRI
IRI
PulseAugur coverage of IRI — every cluster mentioning IRI across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 2 条
-
新的大型语言模型评估方法解决对齐和偏见问题
研究人员正在开发新的方法来评估和改进大型语言模型(LLMs)的对齐性和可解释性。Google Research 提出了一个框架,该框架改编了心理学评估方法,以量化 LLM 的行为倾向并将其与人类共识进行比较。同时,一种名为 BINEVAL 的新方法将评估标准分解为二元问题,提供了比传统 LLM 裁判更具可解释性和可调试性的分数。其他研究则探讨了如何减轻 LLM 评估者中的自我偏好偏见,并通过考虑项目难度来改进置信度校准。
-
Google Research 评估大语言模型对齐并提高事实准确性
Google Research 开发了一个新的框架来评估大语言模型与人类社会倾向的行为对齐情况。该方法将已建立的心理学问卷改编成大规模情境判断测试,从而能够量化模型在现实场景中的倾向。研究发现了模型行为偏离人类共识或未能捕捉人类意见范围的差距,旨在改善大语言模型在社会动态中的导航能力。另外,Google Research 还推出了 SLED,这是一种新颖的解码策略,通过利用模型的所有层而不是仅最后一层来提高大语言模型的准确性,且无需外…