实体
multimodal agents
multimodal agents
PulseAugur coverage of multimodal agents — every cluster mentioning multimodal agents across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的AgroTools基准测试揭示AI在农业工具使用方面存在困难
研究人员推出了AgroTools,这是一个旨在评估多模态AI代理利用外部工具进行农业决策能力的新基准测试。该基准测试包含500多个问答对和近1100张图像,涵盖五个任务家族和一个包含14种农业工具的环境。对13种不同大型语言模型的初步测试显示,它们在精准农业任务的规划、执行和信息综合能力方面存在显著局限性。
-
New benchmark tests LLMs on interactive geometry construction
Researchers have developed GeoBuildBench, a new benchmark to assess how well large language and multimodal models can translate natural language geometry problems into executable construction programs. This benchmark di…