研究人员推出了MobilityBench,这是一个旨在评估基于大型语言模型(LLM)的路线规划代理在真实出行场景中性能的新基准。该基准利用了来自Amap的大量匿名用户查询数据集,涵盖了多个城市的多样化路线规划需求。为了确保可复现性,MobilityBench包含一个确定性的API重放沙箱和一个多维评估协议,该协议评估结果的有效性、指令理解、规划、工具使用和效率。初步评估表明,当前的LLM代理在基本信息检索和路线规划方面能力尚可,但在满足偏好约束的规划方面存在困难,这表明在个性化出行应用方面仍需改进。 AI
影响 提供了一种标准化的方法来评估和改进基于LLM的出行代理,有望带来更个性化、更高效的导航工具。
排序理由 该集群包含一篇介绍新AI代理评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →