PulseAugur
实时 22:49:06
实体 PieArena

PieArena

PulseAugur coverage of PieArena — every cluster mentioning PieArena across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
  1. 2026-06-03 research_milestone Researchers introduced PieArena, a new benchmark for evaluating language agent negotiation capabilities. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_68372 ·

    新基准评估LLM谈判能力,GPT-5媲美人为基线

    研究人员推出了PieArena,这是一个旨在评估大型语言模型谈判能力的新基准。该基准利用了从MBA谈判课程改编的真实场景,并在包括人机交互在内的各种配对模式下评估模型。评估超越了简单的结果分数,提供了多维度的行为画像,考察了指令遵循、欺骗和声誉等方面。值得注意的是,一个前沿模型GPT-5在这些谈判任务中的表现与人类基线相当或更优。