PulseAugur
实时 20:51:00
English(EN) LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

新的基准测试 LiveBrowseComp 评估 LLM 搜索代理的真正发现能力

一篇新的研究论文介绍了一个名为 LiveBrowseComp 的基准测试,旨在评估大型语言模型(LLM)搜索代理是否真正发现新信息,还是仅仅验证其现有的内部知识。研究发现,代理通常依赖内在知识,在没有外部工具的情况下回答问题,并根据内部假设生成查询。当移除支持答案的证据时,代理的性能显著下降,这表明当前的基准测试可能奖励记忆回忆而非基于证据的发现。LiveBrowseComp 旨在评估代理查找最新信息的能力,结果显示所有测试的代理在该动态基准测试上的表现都很差。 AI

影响 这项研究突显了当前 LLM 搜索代理评估的局限性,表明需要动态基准测试来评估真正的发现信息能力,而非内部知识验证。

排序理由 该集群描述了一篇介绍用于评估 LLM 搜索代理的新型基准测试的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

新的基准测试 LiveBrowseComp 评估 LLM 搜索代理的真正发现能力

报道来源 [3]

  1. arXiv cs.AI TIER_1 English(EN) · HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu ·

    LiveBrowseComp:搜索代理是在搜索,还是仅仅在验证它们已知的内容?

    arXiv:2605.28721v1 Announce Type: new Abstract: Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with to…

  2. arXiv cs.AI TIER_1 English(EN) · XingYu ·

    LiveBrowseComp:搜索代理是在搜索,还是仅仅在验证它们已知的内容?

    Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowle…

  3. Hugging Face Daily Papers TIER_1 English(EN) ·

    LiveBrowseComp:搜索代理是在搜索,还是仅仅在验证它们已知的内容?

    LLM search agents demonstrate reliance on internal knowledge rather than external verification, with performance dropping significantly when answer-supporting evidence is removed, leading to the introduction of a dynamic benchmark to better evaluate true search capabilities.