研究人员推出了AgroTools,这是一个旨在评估多模态AI代理利用外部工具进行农业决策能力的新基准测试。该基准测试包含500多个问答对和近1100张图像,涵盖五个任务家族和一个包含14种农业工具的环境。对13种不同大型语言模型的初步测试显示,它们在精准农业任务的规划、执行和信息综合能力方面存在显著局限性。 AI
影响 该基准测试突显了当前AI在将工具应用于复杂、现实世界任务方面的局限性,表明需要改进专业领域中AI代理的规划和执行能力。
排序理由 该集群描述了一个用于评估AI模型的新学术基准测试。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →