实体 multimodal agents

multimodal agents

PulseAugur coverage of multimodal agents — every cluster mentioning multimodal agents across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_86906 · Jun 12 · 04:00

新的SPORT方法在无需人类数据的情况下训练多模态代理

研究人员开发了一种名为SPORT（分步偏好调整）的新颖方法，无需依赖大量人工标注数据即可训练多模态代理。该方法使用任务合成、步采样、步验证和偏好调整的迭代过程，使代理能够自主发现有效的工具使用策略。在GTA和GAIA基准上的评估显示，代理性能有了显著提高，突显了该方法的泛化能力。
RESEARCH · CL_65400 · Jun 1 · 16:20

新的基准测试HLL旨在测试AI代理解决验证码的能力

研究人员开发了一个名为“人类最后一道验证防线”（Humanity's Last Line of Verification, HLL）的新基准测试，用于测试多模态AI代理绕过验证码挑战的能力。该基准测试评估代理与界面进行类似人类交互的能力，而不仅仅是识别图像，并在现实条件下评估其性能。目前的前沿代理在跨越这道人类验证边界方面显示出显著的局限性，突显了在本地化、动作校准和状态跟踪方面的改进空间。
RESEARCH · CL_44088 · May 21 · 11:58

新的AgroTools基准测试揭示AI在农业工具使用方面存在困难

研究人员推出了AgroTools，这是一个旨在评估多模态AI代理利用外部工具进行农业决策能力的新基准测试。该基准测试包含500多个问答对和近1100张图像，涵盖五个任务家族和一个包含14种农业工具的环境。对13种不同大型语言模型的初步测试显示，它们在精准农业任务的规划、执行和信息综合能力方面存在显著局限性。
RESEARCH · CL_30787 · May 13 · 08:30

新基准测试 LLM 在交互式几何构建方面的能力

研究人员开发了 GeoBuildBench，一个评估大型语言和多模态模型将自然语言几何问题转化为可执行构建程序能力的基准。该基准与其他基准的不同之处在于，它侧重于几何图的交互式生成，而不仅仅是静态解释或答案的正确性。它包含 489 个中文课本风格的问题，评估显示当前模型在结构幻觉和约束满足方面存在困难，表明需要改进基于现实的推理能力。

新的SPORT方法在无需人类数据的情况下训练多模态代理

新的基准测试HLL旨在测试AI代理解决验证码的能力

新的AgroTools基准测试揭示AI在农业工具使用方面存在困难

新基准测试 LLM 在交互式几何构建方面的能力