实体 XHS-SCoRE

XHS-SCoRE

PulseAugur coverage of XHS-SCoRE — every cluster mentioning XHS-SCoRE across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_15842 · May 5 · 04:00

大型语言模型在社会对齐方面存在困难，生成有偏见的响应并忽略社交线索

一篇新论文揭示，当前的大型语言模型（LLMs）常常无法与社会期望的偏好对齐，在偏见、安全和伦理等领域经常偏好不理想的响应。研究人员开发了一个框架来评估跨越这些社会维度的奖励模型，发现了显著的差异以及偏见规避与上下文忠实度之间的权衡。另一项研究强调，大型语言模型可以生成触发人类社会比较的文本，但它们自身却难以检测到这些触发因素，这表明在生成和理解社交线索之间存在脱节。