English(EN) LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

新基准 LongWebBench 评估长篇网页生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员推出了 LongWebBench，这是一个旨在评估长网页生成能力的新基准，用于视觉语言模型（VLMs）。该基准评估了结构连贯性和功能交互性，使用了真实的超长网页和面向目标的交互任务。对当前 VLMs 的实验表明，虽然视觉保真度可以保持，但随着网页长度的增加，结构保真度会下降，功能执行会失败，这凸显了超越视觉相似性进行更鲁棒评估的必要性。 AI

影响强调了当前 VLM 网页生成能力的局限性，推动了更侧重功能和结构的评估指标。

排序理由介绍用于评估 AI 模型的新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yi Zhao, Zhen Yang, Mengpan Chen, Mingde Xu, Shanghui Gong, Xijun Liu, Jibing Gong, Jie Tang · 2026-06-17 04:00

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

arXiv:2606.17727v1 Announce Type: new Abstract: Recent vision-language models (VLMs) have shown promising progress in generating webpages from visual inputs, yet existing evaluations mainly focus on short, single-screen, and largely static webpages. We introduce LongWebBench, a b…

报道来源 [1]

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

相关实体

相关话题