研究人员开发了一种新方法来量化 AI 助手模拟用户行为与真实用户行为之间的差异。该技术分析对话数据,以衡量用户模拟器在多大程度上复制了真实用户的多样化行为。他们对 24 个基于大型语言模型的模拟器进行的评估显示,存在显著差距,并且性能因模型系列和规模而异。研究还发现,结合多个模拟器比使用任何单一模拟器更能近似真实用户分布。 AI
影响 强调需要更逼真的 AI 用户模拟器来改进 AI 助手训练和评估。
排序理由 学术论文,介绍了一种用于评估 AI 用户模拟器的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →