PulseAugur
实时 07:39:34
实体 multimodal agents

multimodal agents

PulseAugur coverage of multimodal agents — every cluster mentioning multimodal agents across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_44088 ·

    新的AgroTools基准测试揭示AI在农业工具使用方面存在困难

    研究人员推出了AgroTools,这是一个旨在评估多模态AI代理利用外部工具进行农业决策能力的新基准测试。该基准测试包含500多个问答对和近1100张图像,涵盖五个任务家族和一个包含14种农业工具的环境。对13种不同大型语言模型的初步测试显示,它们在精准农业任务的规划、执行和信息综合能力方面存在显著局限性。

  2. RESEARCH · CL_30787 ·

    New benchmark tests LLMs on interactive geometry construction

    Researchers have developed GeoBuildBench, a new benchmark to assess how well large language and multimodal models can translate natural language geometry problems into executable construction programs. This benchmark di…