新的VISTA基准评估用于生成Web应用的AI代理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员推出了VISTA，一个旨在评估AI代理端到端Web应用程序生成能力的新基准。VISTA专注于现实的UI开发，要求代理根据不明确的输入创建功能性和视觉上一致的应用程序，这与之前专注于算法任务的基准不同。该基准包含五种不同的提示-信息条件，改变视觉保真度、结构信息和堆栈约束，以提供一个全面的测试平台。评估方法包括基于DOM的参考匹配、特定行为的浏览器测试以及基于CLIP的视觉相似性，以衡量结构对齐、功能完整性和视觉保真度。 AI

排序理由该集群描述了一篇介绍AI代理基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · JunJia Guo (Joe), Yuhang Yao (Joe), Jiawei (Joe), Zhou, Jingdi Chen · 2026-05-27 04:00

VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

arXiv:2605.26144v1 Announce Type: cross Abstract: We present VISTA (VIsual Spec-To-App Benchmark), a benchmark for evaluating the end-to-end web-app generation capabilities of LLM-based agents. Unlike prior code generation benchmarks that focus on algorithmic tasks, VISTA targets…

报道来源 [1]

VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

相关实体

相关话题