PulseAugur
实时 13:28:48
English(EN) MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

新基准评估真实场景下LLM路线规划代理

研究人员推出了MobilityBench,这是一个旨在评估基于大型语言模型(LLM)的路线规划代理在真实出行场景中性能的新基准。该基准利用了来自Amap的大量匿名用户查询数据集,涵盖了多个城市的多样化路线规划需求。为了确保可复现性,MobilityBench包含一个确定性的API重放沙箱和一个多维评估协议,该协议评估结果的有效性、指令理解、规划、工具使用和效率。初步评估表明,当前的LLM代理在基本信息检索和路线规划方面能力尚可,但在满足偏好约束的规划方面存在困难,这表明在个性化出行应用方面仍需改进。 AI

影响 提供了一种标准化的方法来评估和改进基于LLM的出行代理,有望带来更个性化、更高效的导航工具。

排序理由 该集群包含一篇介绍新AI代理评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu ·

    MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

    arXiv:2602.22638v2 Announce Type: replace Abstract: Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systemati…