研究人员推出了PieArena,这是一个旨在评估大型语言模型谈判能力的新基准。该基准利用了从MBA谈判课程改编的真实场景,并在包括人机交互在内的各种配对模式下评估模型。评估超越了简单的结果分数,提供了多维度的行为画像,考察了指令遵循、欺骗和声誉等方面。值得注意的是,一个前沿模型GPT-5在这些谈判任务中的表现与人类基线相当或更优。 AI
影响 为评估LLM的战略推理和谈判能力建立了新标准,有望推动在商业应用中代理能力的提升。
排序理由 这是一篇介绍LLM新评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →