研究人员开发了一个名为 LLM-S^3 的新基准,用于评估大型语言模型在调查中模拟人类受访者的能力。该基准包含跨越不同社会学领域的 11 个真实数据集。使用 GPT-3.5/4 Turbo 和 LLaMA 3.0/3.1-8B 进行的实验显示了持续的性能趋势,并强调了提示设计如何影响模拟准确性。 AI
影响 引入了一个评估大型语言模型模拟能力的新基准,有望改进社会科学中的数据收集方法。
排序理由 该集群包含一篇介绍用于评估大型语言模型在调查模拟中能力的新基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →