PulseAugur
实时 06:13:59
English(EN) Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants

新的购物助手基准揭示了大型语言模型推理能力的差距

研究人员开发了 Shopping Reasoning Bench,这是一个旨在评估对话式购物助手的新基准。该基准由零售专家编写,包含 525 个任务,从多个标准评估多轮推理、领域知识和质量。当前的领先模型如 GPTClaudeGemini 显示出性能差距,在高级标准和对话进行过程中得分显著降低,表明它们尚未达到专家级别的咨询能力。 AI

影响 该基准突显了大型语言模型在复杂、多轮对话任务中的当前局限性,表明需要提高在专业领域的处理能力。

排序理由 该集群描述了一个用于评估人工智能模型的新学术基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Shuxian Fan, Seonwoo Min, Youna Hu, Botao Xia, Jayakrishnan Unnikrishnan, Rowan Musselmann, Yifan Gao, Qingyu Yin, Priyanka Nigam, Bing Yin ·

    Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants

    arXiv:2606.12608v1 Announce Type: new Abstract: Conversational shopping assistants now serve hundreds of millions of customers, yet no existing benchmark jointly evaluates the open-ended multi-turn reasoning, domain expertise, and criterion-level quality that real shopping conver…