English(EN) Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

研究人员量化并减轻大型语言模型中的社会期望反应

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 04:00

研究人员开发了一个新框架，用于识别和减少大型语言模型（LLMs）在使用自我报告问卷进行评估时出现的社会期望反应（SDR）。这种SDR是指模型提供符合期望的答案而非诚实答案，这会影响对角色一致性、安全性和偏见的评估结果。所提出的方法通过比较诚实指令和虚假良好指令下的响应来量化SDR，并使用等级强制选择清单来减轻它，结果显示在保留角色恢复能力的同时，SDR显著降低。 AI

影响引入了一种提高LLM评估可靠性的方法，特别是在安全性和偏见评估方面。

排序理由学术论文，介绍了一个用于评估LLM的新框架。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Kensuke Okada, Yui Furukawa, Kyosuke Bunji · 2026-04-29 04:00

量化和缓解大型语言模型中的社会期望响应：一项期望匹配的分级强制选择心理测量学研究

arXiv:2602.17262v2 Announce Type: replace Abstract: Human self-report questionnaires are increasingly used in NLP to benchmark and audit large language models (LLMs), from persona consistency to safety and bias assessments. Yet these instruments presume honest responding; in eval…

报道来源 [1]

量化和缓解大型语言模型中的社会期望响应：一项期望匹配的分级强制选择心理测量学研究

相关实体

相关话题