PulseAugur
实时 02:57:19
English(EN) PrefBench: Evaluating Zero-Shot LLM Agents in Hidden-Preference Personalized Pricing Negotiations

LLM代理在隐藏偏好定价谈判中难以盈利

研究人员推出了PrefBench,这是一个旨在评估大型语言模型(LLM)代理在买家偏好隐藏的个性化定价谈判中表现的新基准。虽然LLM代理在完成交易方面表现出很高的成功率,交易完成率超过0.99,但它们的盈利结果却明显较弱。表现最好的LLM代理的平均利润仅略好于随机基线,并且远低于简单的让步启发式方法,这表明在合规性和盈利性谈判之间存在差距。 AI

影响 引入了一个基准来评估LLM代理在复杂谈判场景中的表现,突显了当前在盈利性战略谈判方面的局限性。

排序理由 一项新的学术论文,介绍了一个用于评估LLM代理的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yingjie Lei ·

    PrefBench: Evaluating Zero-Shot LLM Agents in Hidden-Preference Personalized Pricing Negotiations

    arXiv:2605.22855v1 Announce Type: cross Abstract: Personalized pricing negotiations are a challenging testbed for LLM agents because successful interaction does not guarantee profitable decision making. A seller may produce valid actions and close many deals while still pricing p…