PulseAugur
实时 09:30:06
实体 XHS-SCoRE

XHS-SCoRE

PulseAugur coverage of XHS-SCoRE — every cluster mentioning XHS-SCoRE across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_15842 ·

    大型语言模型在社会对齐方面存在困难,生成有偏见的响应并忽略社交线索

    一篇新论文揭示,当前的大型语言模型(LLMs)常常无法与社会期望的偏好对齐,在偏见、安全和伦理等领域经常偏好不理想的响应。研究人员开发了一个框架来评估跨越这些社会维度的奖励模型,发现了显著的差异以及偏见规避与上下文忠实度之间的权衡。另一项研究强调,大型语言模型可以生成触发人类社会比较的文本,但它们自身却难以检测到这些触发因素,这表明在生成和理解社交线索之间存在脱节。