实体 InteractWeb-Bench

InteractWeb-Bench

PulseAugur coverage of InteractWeb-Bench — every cluster mentioning InteractWeb-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_06209 · Apr 27 · 04:34

新基准和框架应对 AI 代理在网站生成和遥感任务中的局限性

研究人员推出了 InteractWeb-Bench，这是一个旨在评估多模态大语言模型（MLLMs）在网站生成任务中的新基准。该基准模拟了用户指令可能模糊或矛盾的真实世界条件，这种情况被称为“盲执行”。使用 InteractWeb-Bench 进行的实验表明，当前前沿的基于 MLLM 的代理在这些复杂场景中难以进行意图识别和自适应交互。该基准包含一个交互式环境，具有 Clarify、Implement、Verify 和 Submit 等…

新基准和框架应对 AI 代理在网站生成和遥感任务中的局限性