PulseAugur
实时 20:20:28

新的VISTA基准评估用于生成Web应用的AI代理

研究人员推出了VISTA,一个旨在评估AI代理端到端Web应用程序生成能力的新基准。VISTA专注于现实的UI开发,要求代理根据不明确的输入创建功能性和视觉上一致的应用程序,这与之前专注于算法任务的基准不同。该基准包含五种不同的提示-信息条件,改变视觉保真度、结构信息和堆栈约束,以提供一个全面的测试平台。评估方法包括基于DOM的参考匹配、特定行为的浏览器测试以及基于CLIP的视觉相似性,以衡量结构对齐、功能完整性和视觉保真度。 AI

排序理由 该集群描述了一篇介绍AI代理基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的VISTA基准评估用于生成Web应用的AI代理

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · JunJia Guo (Joe), Yuhang Yao (Joe), Jiawei (Joe), Zhou, Jingdi Chen ·

    VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

    arXiv:2605.26144v1 Announce Type: cross Abstract: We present VISTA (VIsual Spec-To-App Benchmark), a benchmark for evaluating the end-to-end web-app generation capabilities of LLM-based agents. Unlike prior code generation benchmarks that focus on algorithmic tasks, VISTA targets…