PulseAugur
实时 08:21:12
English(EN) When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

新的基准DiscoBench评估LLM搜索代理处理模糊查询的能力

研究人员推出了DiscoBench,这是一个旨在评估大型语言模型(LLM)驱动的搜索代理处理模糊查询能力的新基准。该基准在11个领域中包含211个样本和463个模糊实例,重点关注代理如何识别模糊性、提出澄清性问题以及从不正确的搜索路径中恢复。实验表明,模糊检测和澄清是不同的技能,代理通过反复搜索而不是寻求澄清而表现更差,这凸显了交互式问题解决能力方面的差距。 AI

影响 该基准可以推动LLM搜索代理的改进,使其在处理现实世界中模糊的用户查询方面更加有效。

排序理由 该集群描述了一个用于评估LLM搜索代理的新基准,这是一项研究贡献。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的基准DiscoBench评估LLM搜索代理处理模糊查询的能力

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Yiling Tao, Shihan Deng, Meiling Tao, Pengzhi Wei, Zhichao Hu, Zhihao Zhu ·

    When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

    arXiv:2606.27669v1 Announce Type: new Abstract: Search agents powered by large language models (LLMs) are increasingly used to solve complex information-seeking tasks, requiring multi-step retrieval and reasoning to fulfill user goals. However, existing benchmarks often assume th…

  2. arXiv cs.CL TIER_1 English(EN) · Zhihao Zhu ·

    搜索代理何时应提问:用于澄清感知深度搜索的DiscoBench

    Search agents powered by large language models (LLMs) are increasingly used to solve complex information-seeking tasks, requiring multi-step retrieval and reasoning to fulfill user goals. However, existing benchmarks often assume that user queries are complete and explicit, overl…