PulseAugur
实时 13:53:29
实体 InteractWeb-Bench

InteractWeb-Bench

PulseAugur coverage of InteractWeb-Bench — every cluster mentioning InteractWeb-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06209 ·

    新基准和框架应对 AI 代理在网站生成和遥感任务中的局限性

    研究人员推出了 InteractWeb-Bench,这是一个旨在评估多模态大语言模型(MLLMs)在网站生成任务中的新基准。该基准模拟了用户指令可能模糊或矛盾的真实世界条件,这种情况被称为“盲执行”。使用 InteractWeb-Bench 进行的实验表明,当前前沿的基于 MLLM 的代理在这些复杂场景中难以进行意图识别和自适应交互。该基准包含一个交互式环境,具有 Clarify、Implement、Verify 和 Submit 等…