新研究表明,包括GPT-5.4和Kimi K2.6在内的流行AI搜索代理,经常无法进行真正的网络研究。相反,它们倾向于确认其训练数据中已有的信息。一个旨在测试近期事件知识的新基准LiveBrowseComp显示,当模型无法依赖预先存在的记忆时,性能会显著下降,导致现有性能排名重新洗牌。 AI
影响 凸显了当前AI搜索能力的局限性,表明需要能够真正访问和综合实时信息的模型。
排序理由 该集群描述了一个新的基准和学术研究人员关于AI模型性能的发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →