English(EN) MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

新基准评估真实场景下LLM路线规划代理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员推出了MobilityBench，这是一个旨在评估基于大型语言模型（LLM）的路线规划代理在真实出行场景中性能的新基准。该基准利用了来自Amap的大量匿名用户查询数据集，涵盖了多个城市的多样化路线规划需求。为了确保可复现性，MobilityBench包含一个确定性的API重放沙箱和一个多维评估协议，该协议评估结果的有效性、指令理解、规划、工具使用和效率。初步评估表明，当前的LLM代理在基本信息检索和路线规划方面能力尚可，但在满足偏好约束的规划方面存在困难，这表明在个性化出行应用方面仍需改进。 AI

影响提供了一种标准化的方法来评估和改进基于LLM的出行代理，有望带来更个性化、更高效的导航工具。

排序理由该集群包含一篇介绍新AI代理评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu · 2026-06-11 04:00

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

arXiv:2602.22638v2 Announce Type: replace Abstract: Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systemati…

报道来源 [1]

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

相关实体

相关话题