实体 LLM-driven agents

LLM-driven agents

PulseAugur coverage of LLM-driven agents — every cluster mentioning LLM-driven agents across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
产品 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_68539 · Jun 3 · 04:00

新基准测试 AI 模型在道路损坏检测方面的能力

研究人员推出了 WildRoadBench，这是一个旨在评估视觉语言模型 (VLM) 和由大型语言模型驱动的代理在航空影像中识别道路损坏的能力的新基准。该基准包含两个赛道：一个赛道供 VLM 使用视觉基础和提示来定位损坏，另一个赛道供自主代理在有限预算内执行诸如网络搜索和代码生成等任务。当前前沿模型显示出潜力，但仍未达到可靠的性能水平，而开源模型和代理则明显落后。

新基准测试 AI 模型在道路损坏检测方面的能力