PulseAugur
实时 07:49:33
实体 Shopping Reasoning Bench

Shopping Reasoning Bench

PulseAugur coverage of Shopping Reasoning Bench — every cluster mentioning Shopping Reasoning Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_86849 ·

    新的购物助手基准揭示了大型语言模型推理能力的差距

    研究人员开发了 Shopping Reasoning Bench,这是一个旨在评估对话式购物助手的新基准。该基准由零售专家编写,包含 525 个任务,从多个标准评估多轮推理、领域知识和质量。当前的领先模型如 GPT、Claude 和 Gemini 显示出性能差距,在高级标准和对话进行过程中得分显著降低,表明它们尚未达到专家级别的咨询能力。