研究人员推出了DiscoBench,这是一个旨在评估大型语言模型(LLM)驱动的搜索代理处理模糊查询能力的新基准。该基准在11个领域中包含211个样本和463个模糊实例,重点关注代理如何识别模糊性、提出澄清性问题以及从不正确的搜索路径中恢复。实验表明,模糊检测和澄清是不同的技能,代理通过反复搜索而不是寻求澄清而表现更差,这凸显了交互式问题解决能力方面的差距。 AI
影响 该基准可以推动LLM搜索代理的改进,使其在处理现实世界中模糊的用户查询方面更加有效。
排序理由 该集群描述了一个用于评估LLM搜索代理的新基准,这是一项研究贡献。
- arXiv
- DiscoBench
- Hugging Face
- large language models
- alphaXiv
- CatalyzeX Code Finder for Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Influence Flower
- LLMs
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →