一篇新的研究论文探讨了大型语言模型(LLM)作为人类受访者数字孪生时的心理测量可比性。该研究提出了一个框架,用于根据人类数据评估 LLM,发现虽然 LLM 在总体水平上实现了高准确性,但其项目级相关性有所减弱。研究还观察到,与人类相比,LLM 倾向于表现出规范理性并低估启发式偏差,尽管条件化可以改善个性预测。研究结果表明,LLM 数字孪生在性能与人类数据一致的已验证边界内最有用。 AI
影响 阐明了 LLM 在心理测量研究中充当数字孪生的局限性和适用场景。
排序理由 arXiv 上发表的研究论文,详细介绍了 LLM 与人类反应可比性的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →