English(EN) PieArena: Ranking and Profiling Language Agents in Realistic Negotiation Scenarios

新基准评估LLM谈判能力，GPT-5媲美人为基线

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员推出了PieArena，这是一个旨在评估大型语言模型谈判能力的新基准。该基准利用了从MBA谈判课程改编的真实场景，并在包括人机交互在内的各种配对模式下评估模型。评估超越了简单的结果分数，提供了多维度的行为画像，考察了指令遵循、欺骗和声誉等方面。值得注意的是，一个前沿模型GPT-5在这些谈判任务中的表现与人类基线相当或更优。 AI

影响为评估LLM的战略推理和谈判能力建立了新标准，有望推动在商业应用中代理能力的提升。

排序理由这是一篇介绍LLM新评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Chris Zhu, Sasha Cui, Will Sanok Dufallo, Runzhi Jin, Zhen Xu, Linjun Zhang, Daylian Cain · 2026-06-03 04:00

PieArena：在真实谈判场景中对语言代理进行排名和画像

arXiv:2602.05302v3 Announce Type: replace Abstract: We present an in-depth evaluation of LLMs' ability to negotiate, a central business task requiring strategic reasoning, theory of mind, and economic value creation. To do so, we introduce PieArena, a large-scale negotiation benc…

报道来源 [1]

PieArena：在真实谈判场景中对语言代理进行排名和画像

相关实体

相关话题