研究人员推出了VISTA,一个旨在评估AI代理端到端Web应用程序生成能力的新基准。VISTA专注于现实的UI开发,要求代理根据不明确的输入创建功能性和视觉上一致的应用程序,这与之前专注于算法任务的基准不同。该基准包含五种不同的提示-信息条件,改变视觉保真度、结构信息和堆栈约束,以提供一个全面的测试平台。评估方法包括基于DOM的参考匹配、特定行为的浏览器测试以及基于CLIP的视觉相似性,以衡量结构对齐、功能完整性和视觉保真度。 AI
排序理由 该集群描述了一篇介绍AI代理基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →