PulseAugur
实时 12:11:27
实体 RetailBench

RetailBench

PulseAugur coverage of RetailBench — every cluster mentioning RetailBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93149 ·

    新的基准测试 RetailBench 评估大型语言模型代理的长期决策能力

    研究人员推出了 RetailBench,这是一个旨在评估大型语言模型代理在真实零售环境中进行长周期推理和决策制定能力的新基准测试。该基准测试模拟了超市在较长时期内的运营,要求代理管理定价、库存和客户反馈等各个方面。对七个大型语言模型的评估显示出显著的性能差异,只有少数模型能够完成整个模拟周期,并且在净资产和销售额方面都未能达到最优策略。