English(EN) When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

新的基准DiscoBench评估LLM搜索代理处理模糊查询的能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-26 02:57

研究人员推出了DiscoBench，这是一个旨在评估大型语言模型（LLM）驱动的搜索代理处理模糊查询能力的新基准。该基准在11个领域中包含211个样本和463个模糊实例，重点关注代理如何识别模糊性、提出澄清性问题以及从不正确的搜索路径中恢复。实验表明，模糊检测和澄清是不同的技能，代理通过反复搜索而不是寻求澄清而表现更差，这凸显了交互式问题解决能力方面的差距。 AI

影响该基准可以推动LLM搜索代理的改进，使其在处理现实世界中模糊的用户查询方面更加有效。

排序理由该集群描述了一个用于评估LLM搜索代理的新基准，这是一项研究贡献。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Yiling Tao, Shihan Deng, Meiling Tao, Pengzhi Wei, Zhichao Hu, Zhihao Zhu · 2026-06-29 04:00

When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

arXiv:2606.27669v1 Announce Type: new Abstract: Search agents powered by large language models (LLMs) are increasingly used to solve complex information-seeking tasks, requiring multi-step retrieval and reasoning to fulfill user goals. However, existing benchmarks often assume th…
arXiv cs.CL TIER_1 English(EN) · Zhihao Zhu · 2026-06-26 02:57

搜索代理何时应提问：用于澄清感知深度搜索的DiscoBench

Search agents powered by large language models (LLMs) are increasingly used to solve complex information-seeking tasks, requiring multi-step retrieval and reasoning to fulfill user goals. However, existing benchmarks often assume that user queries are complete and explicit, overl…

报道来源 [2]

When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

搜索代理何时应提问：用于澄清感知深度搜索的DiscoBench

相关实体

相关话题