研究人员推出了 RetailBench,这是一个旨在评估大型语言模型代理在真实零售环境中进行长周期推理和决策制定能力的新基准测试。该基准测试模拟了超市在较长时期内的运营,要求代理管理定价、库存和客户反馈等各个方面。对七个大型语言模型的评估显示出显著的性能差异,只有少数模型能够完成整个模拟周期,并且在净资产和销售额方面都未能达到最优策略。 AI
影响 该基准测试将有助于研究人员开发更强大的大型语言模型代理,以应对复杂、长期的任务。
排序理由 该集群包含一篇详细介绍大型语言模型代理新基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →