研究人员推出了LakeQA,这是一个旨在测试大型语言模型在海量数据湖中搜索和推理能力的新基准。该基准使用了约9.5 TB的各种数据,包括维基百科和政府数据集,需要跨多个来源进行多跳推理和证据组合。初步实验表明,即使是GPT-5.2等先进模型也难以胜任这项任务,精确匹配得分仅为18.37%,凸显了LakeQA在开发有效的LLM代理方面所带来的挑战。 AI
影响 为评估LLM代理在大型、非结构化数据集上进行搜索和推理的能力建立了一个新的、具有挑战性的基准。
排序理由 该集群包含一篇介绍LLM评估新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →