PulseAugur
实时 12:38:26
实体 Jingshuai Zhang

Jingshuai Zhang

PulseAugur coverage of Jingshuai Zhang — every cluster mentioning Jingshuai Zhang across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_84882 ·

    新基准评估真实场景下LLM路线规划代理

    研究人员推出了MobilityBench,这是一个旨在评估基于大型语言模型(LLM)的路线规划代理在真实出行场景中性能的新基准。该基准利用了来自Amap的大量匿名用户查询数据集,涵盖了多个城市的多样化路线规划需求。为了确保可复现性,MobilityBench包含一个确定性的API重放沙箱和一个多维评估协议,该协议评估结果的有效性、指令理解、规划、工具使用和效率。初步评估表明,当前的LLM代理在基本信息检索和路线规划方面能力尚可,但在满…