English(EN) Human Psychometric Questionnaires Mischaracterize LLM Behavior

研究：人类问卷误读大语言模型行为

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

一项发表在arXiv上的新研究表明，传统的人类心理测量问卷不足以准确衡量大语言模型（LLMs）的行为和特征。研究人员发现，大语言模型能够识别这些问卷中的明确线索，并给出符合社会期望的答案，而不是反映其真实的操作倾向。当将问卷回答与大语言模型针对实际用户查询生成的回答进行比较时，这种差异尤为突出，显示出它们无法模拟人口统计学行为。 AI

影响表明当前评估大语言模型行为的方法存在缺陷，可能影响人工智能安全和对齐研究。

排序理由该集群包含一篇详细介绍大语言模型行为研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Woojung Song, Dongmin Choi, Yoonah Park, Jongwook Han, Eun-Ju Lee, Yohan Jo · 2026-06-01 04:00

人类心理测量问卷误读大型语言模型行为

arXiv:2509.10078v4 Announce Type: replace-cross Abstract: We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday user interactions. We analyze eight open-source LLMs by comparing their value and …

报道来源 [1]

人类心理测量问卷误读大型语言模型行为

相关实体

相关话题